論文の概要: From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration
- arxiv url: http://arxiv.org/abs/2510.27452v1
- Date: Fri, 31 Oct 2025 13:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.107161
- Title: From Pixels to Paths: A Multi-Agent Framework for Editable Scientific Illustration
- Title(参考訳): PixelからPathへ: 編集可能な科学的イラストレーションのためのマルチエージェントフレームワーク
- Authors: Jianwen Sun, Fanrui Zhang, Yukang Feng, Chuanhao Li, Zizhen Li, Jiaxin Ai, Yifan Chang, Yu Dai, Kaipeng Zhang,
- Abstract要約: VisPainterは、モデルコンテキストプロトコル上に構築された科学イラストレーションのためのマルチエージェントフレームワークである。
マネージャ、デザイナ、ツールボックスという3つの特殊なモジュールを編成し、標準ベクターグラフィックスソフトウェアと互換性のあるダイアグラムを共同で作成する。
内容、レイアウト、視覚知覚、相互作用コストの4つの側面から、高情報密度の科学的イラストを評価する。
- 参考スコア(独自算出の注目度): 38.72208780072352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific illustrations demand both high information density and post-editability. However, current generative models have two major limitations: Frist, image generation models output rasterized images lacking semantic structure, making it impossible to access, edit, or rearrange independent visual components in the images. Second, code-based generation methods (TikZ or SVG), although providing element-level control, force users into the cumbersome cycle of "writing-compiling-reviewing" and lack the intuitiveness of manipulation. Neither of these two approaches can well meet the needs for efficiency, intuitiveness, and iterative modification in scientific creation. To bridge this gap, we introduce VisPainter, a multi-agent framework for scientific illustration built upon the model context protocol. VisPainter orchestrates three specialized modules-a Manager, a Designer, and a Toolbox-to collaboratively produce diagrams compatible with standard vector graphics software. This modular, role-based design allows each element to be explicitly represented and manipulated, enabling true element-level control and any element can be added and modified later. To systematically evaluate the quality of scientific illustrations, we introduce VisBench, a benchmark with seven-dimensional evaluation metrics. It assesses high-information-density scientific illustrations from four aspects: content, layout, visual perception, and interaction cost. To this end, we conducted extensive ablation experiments to verify the rationality of our architecture and the reliability of our evaluation methods. Finally, we evaluated various vision-language models, presenting fair and credible model rankings along with detailed comparisons of their respective capabilities. Additionally, we isolated and quantified the impacts of role division, step control,and description on the quality of illustrations.
- Abstract(参考訳): 科学的イラストは高情報密度と後処理性の両方を要求する。
しかしながら、現在の生成モデルは2つの大きな制限がある: フリスト、画像生成モデルは、意味構造を持たないラスタ化画像を出力し、画像内の独立した視覚コンポーネントへのアクセス、編集、再構成が不可能になる。
第二に、コードベースの生成方法(TikZ または SVG)は要素レベルの制御を提供するが、ユーザを「書き込み-コンパイル-レビュー」という面倒なサイクルに陥らせ、操作の直感性を欠いている。
これらの2つのアプローチはどちらも、科学的創造における効率性、直観性、反復的な修正の必要性を十分に満たしていない。
このギャップを埋めるために、モデルコンテキストプロトコル上に構築された科学イラストのためのマルチエージェントフレームワークVisPainterを紹介します。
VisPainterはManageer、Designer、Toolboxという3つの特殊なモジュールを編成し、標準ベクターグラフィックスソフトウェアと互換性のあるダイアグラムを共同で作成する。
このモジュラーなロールベースの設計により、各要素を明示的に表現し、操作することができ、真の要素レベルの制御を可能にし、任意の要素を後で追加および修正することができる。
科学的イラストの質を体系的に評価するために,7次元評価指標を用いたベンチマークであるVisBenchを紹介する。
内容、レイアウト、視覚知覚、相互作用コストの4つの側面から、高情報密度の科学的イラストを評価する。
そこで我々は,アーキテクチャの合理性と評価手法の信頼性を検証するため,広範囲なアブレーション実験を行った。
最後に,様々な視覚言語モデルの評価を行い,各能力の詳細な比較とともに,公平で信頼性の高いモデルランキングを提示した。
さらに、我々は、役割分割、ステップ制御、イラストの質に関する記述の影響を分離し、定量化した。
関連論文リスト
- Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - EdiVal-Agent: An Object-Centric Framework for Automated, Fine-Grained Evaluation of Multi-Turn Editing [170.71134330650796]
EdiVal-Agentは、命令ベースの画像編集のためのオブジェクト指向評価フレームワークである。
標準のシングルターンだけでなく、マルチターンの命令ベースの編集を精度良く評価するように設計されている。
EdiVal-Benchは、インコンテキスト、フローマッチング、拡散パラダイムにまたがる9つの命令タイプと13の最先端編集モデルをカバーするベンチマークである。
論文 参考訳(メタデータ) (2025-09-16T17:45:39Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Adaptively-Realistic Image Generation from Stroke and Sketch with
Diffusion Model [31.652827838300915]
拡散モデルに基づくスケッチやストロークからの画像合成を3次元制御する統合フレームワークを提案する。
我々のフレームワークは、形状、色、リアリズムを制御したカスタマイズ画像の生成に柔軟性を提供しながら、最先端のパフォーマンスを実現している。
提案手法は,実画像の編集,部分スケッチとストロークの生成,マルチドメインマルチモーダル合成などの応用を解き放つ。
論文 参考訳(メタデータ) (2022-08-26T13:59:26Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。