論文の概要: Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
- arxiv url: http://arxiv.org/abs/2605.30611v1
- Date: Thu, 28 May 2026 22:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.259948
- Title: Crafter: A Multi-Agent Harness for Editable Scientific Figure Generation from Diverse Inputs
- Title(参考訳): Crafter: さまざまな入力から編集可能な科学的フィギュア生成のためのマルチエージェントハーネス
- Authors: Haozhe Zhao, Shuzheng Si, Zhenhailong Wang, Zheng Wang, Liang Chen, Xiaotong Li, Zhixiang Liang, Maosong Sun, Minjia Zhang,
- Abstract要約: 我々は,学術的な図形から出版品質のイラストを自動生成するシステムを開発した。
Crafterは、アーキテクチャの変更なしにフィギュアタイプを一般化するマルチエージェントのハーネスフィギュア生成である。
CraftEditorは、出力を編集可能なSVGに変換する。
- 参考スコア(独自算出の注目度): 62.54193387399707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific figures are among the most effective means of communicating complex research ideas, yet producing publication-quality illustrations remains one of the most labor-intensive parts of paper preparation. Existing automated systems each target a single figure type under text-only input, leaving the diversity of types and conditions researchers actually use unaddressed; their raster outputs further cannot be locally revised. Because scientific figures are structured compositions of discrete semantic components, the localized errors generators produce on such layouts demand not a stronger backbone but a harness. We instantiate this harness in two complementary systems: Crafter, a multi-agent harness for figure generation that generalizes across figure types and input conditions without architectural changes, and CraftEditor, which applies the same pattern to convert raster outputs into editable SVGs. Moreover, we introduce CraftBench, a benchmark spanning three figure types and four input conditions with human quality annotation. Experiments show that Crafter substantially outperforms both standalone generators and the agentic baseline on PaperBanana-Bench and CraftBench, with ablations confirming each component's independent contribution; CraftEditor faithfully converts outputs into editable SVGs that surpass all baselines. Our code and benchmark are available at https://github.com/HaozheZhao/Crafter.
- Abstract(参考訳): 科学的な人物は複雑な研究のアイデアを伝達する最も効果的な手段の1つであるが、出版品質の高いイラストを制作することは、紙の準備において最も労働集約的な部分の1つとして残されている。
既存の自動システムは、テキストのみの入力で単一のフィギュアタイプをターゲットにしており、研究者が実際に使っているタイプや条件の多様性を残している。
科学的図形は独立した意味成分の構造化された構成であるため、そのようなレイアウトで発生する局所的エラー生成は、強いバックボーンではなく、ハーネスを必要とする。
我々はこのハーネスを,図形タイプや入力条件をアーキテクチャ変更なしに一般化する図形生成用マルチエージェントハーネスであるCrafterと,ラスタ出力を編集可能なSVGに変換するのと同じパターンを適用するCraftEditorの2つの補完システムでインスタンス化する。
さらに、3つの図形タイプと4つの入力条件に人間の品質アノテーションを合わせたベンチマークであるCraftBenchを紹介する。
実験の結果、CrafterはPaperBanana-BenchとCraftBenchでスタンドアロンのジェネレータとエージェントベースラインの両方を大幅に上回っており、各コンポーネントの独立したコントリビューションが承認されている。
私たちのコードとベンチマークはhttps://github.com/HaozheZhao/Crafter.orgで公開されています。
関連論文リスト
- Paper Circle: An Open-source Multi-agent Research Discovery and Analysis Framework [82.66443886385125]
ペーパーサークル(Paper Circle)は、学術文献の発見、評価、整理、理解に必要な労力を減らすために設計された発見・分析システムである。
1)複数のソースからのオフラインおよびオンライン検索を統合するディスカバリパイプライン,多エージェントスコアリング,多様性対応ランキング,構造化アウトプット,2)個々の論文を概念,メソッド,数値などの型付きノードで構造化された知識グラフに変換する分析パイプライン,の2つの補完パイプラインで構成されている。
論文 参考訳(メタデータ) (2026-04-07T17:59:58Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration [38.72208780072352]
VisPainterは、モデルコンテキストプロトコル上に構築された科学イラストレーションのためのマルチエージェントフレームワークである。
マネージャ、デザイナ、ツールボックスという3つの特殊なモジュールを編成し、標準ベクターグラフィックスソフトウェアと互換性のあるダイアグラムを共同で作成する。
内容、レイアウト、視覚知覚、相互作用コストの4つの側面から、高情報密度の科学的イラストを評価する。
論文 参考訳(メタデータ) (2025-10-31T13:00:49Z) - Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings [0.0]
本稿では,類似度指標として共引用を用いてニッチデータセットを組み立てることにより,科学的テキストのベクトル埋め込みを改善する。
本研究では,複数層のパーセプトロン区間を拡大し,複数の異なる専門家にコピーする,新たなMixture of Experts(MoE)拡張パイプラインを事前訓練されたBERTモデルに適用する。
論文 参考訳(メタデータ) (2024-01-28T17:34:42Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Look Closer to Supervise Better: One-Shot Font Generation via
Component-Based Discriminator [28.325133809296464]
よりきめ細かいレベルでコンテンツとスタイルを分離するためのジェネレータを監督する新しいコンポーネント・アウェア・モジュール(CAM)を提案する。
提案手法は,最先端のワンショットフォント生成手法より優れている。
手書きの単語合成やシーンテキストの編集にも応用できる。
論文 参考訳(メタデータ) (2022-04-30T03:41:49Z) - Transformer for Graphs: An Overview from Architecture Perspective [86.3545861392215]
グラフのために既存のTransformerモデルを分類し、様々なグラフタスクでそれらの効果を体系的に研究することが不可欠です。
まず、既存のモデルを分解し、バニラ変換器にグラフ情報を組み込む典型的な3つの方法を結論付けます。
本実験は,Transformerにおける現在のグラフ固有のモジュールの利点を確認し,異なる種類のグラフタスクにおけるそれらの利点を明らかにする。
論文 参考訳(メタデータ) (2022-02-17T06:02:06Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。