論文の概要: Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs
- arxiv url: http://arxiv.org/abs/2603.12597v1
- Date: Fri, 13 Mar 2026 03:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.864074
- Title: Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs
- Title(参考訳): Feynman: スケーラブルなビジュアルデザインのための知識注入型ダイアグラムエージェント
- Authors: Zixin Wen, Yifu Cai, Kyle Lee, Sam Estep, Josh Sunshine, Aarti Singh, Yuejie Chi, Wode Ni,
- Abstract要約: 本稿では,エージェントであるFeynmanで構築したスケーラブルなダイアグラム生成パイプラインを提案する。
図を作成するために、Feynman氏はドメイン固有の知識コンポーネント('ideas')を列挙し、アイデアに基づいてコード計画を実行する。
宣言型プログラムはPenroseダイアグラムシステムによってレンダリングされる。
- 参考スコア(独自算出の注目度): 36.795867352791255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual design is an essential application of state-of-the-art multi-modal AI systems. Improving these systems requires high-quality vision-language data at scale. Despite the abundance of internet image and text data, knowledge-rich and well-aligned image-text pairs are rare. In this paper, we present a scalable diagram generation pipeline built with our agent, Feynman. To create diagrams, Feynman first enumerates domain-specific knowledge components (''ideas'') and performs code planning based on the ideas. Given the plan, Feynman translates ideas into simple declarative programs and iterates to receives feedback and visually refine diagrams. Finally, the declarative programs are rendered by the Penrose diagramming system. The optimization-based rendering of Penrose preserves the visual semantics while injecting fresh randomness into the layout, thereby producing diagrams with visual consistency and diversity. As a result, Feynman can author diagrams along with grounded captions with very little cost and time. Using Feynman, we synthesized a dataset with more than 100k well-aligned diagram-caption pairs. We also curate a visual-language benchmark, Diagramma, from freshly generated data. Diagramma can be used for evaluating the visual reasoning capabilities of vision-language models. We plan to release the dataset, benchmark, and the full agent pipeline as an open-source project.
- Abstract(参考訳): ビジュアルデザインは最先端のマルチモーダルAIシステムに不可欠な応用である。
これらのシステムを改善するには、高品質の視覚言語データが必要である。
インターネット画像とテキストデータが豊富にあるにもかかわらず、知識に富み、整合した画像テキストペアは稀である。
本稿では,エージェントであるFeynmanで構築したスケーラブルなダイアグラム生成パイプラインを提案する。
図を作成するために、Feynman氏はまずドメイン固有の知識コンポーネント('ideas')を列挙し、アイデアに基づいてコード計画を実行する。
この計画を考えると、ファインマンはアイデアを単純な宣言型プログラムに変換し、フィードバックを受け取り、図を視覚的に洗練するために反復する。
最後に、宣言型プログラムはPenroseダイアグラムシステムによってレンダリングされる。
Penroseの最適化に基づくレンダリングは、レイアウトに新しいランダム性を注入しながら視覚的意味を保存し、視覚的一貫性と多様性のある図を生成する。
その結果、Feynman氏は、非常に少ないコストと時間で、接地されたキャプションとともにダイアグラムを作成できる。
Feynmanを用いて、100k以上の整列したダイアグラムとカプセルのペアでデータセットを合成した。
また、新たに生成されたデータから、ビジュアル言語ベンチマークであるDiagrammaをキュレートする。
ダイアグラムは視覚言語モデルの視覚的推論能力を評価するために用いられる。
データセット、ベンチマーク、フルエージェントパイプラインをオープンソースプロジェクトとしてリリースする予定です。
関連論文リスト
- DiagramEval: Evaluating LLM-Generated Diagrams via Graphs [25.040934047462112]
有望な方向性は、SVGとしてテキスト形式で直接デモダイアグラムを生成することである、と我々は主張する。
大規模言語モデルにより生成された実演図の質を評価するために設計された新しい評価指標であるDiagramEvalを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:56:17Z) - See it. Say it. Sorted: Agentic System for Compositional Diagram Generation [0.5079602839359522]
スケッチ・トゥ・ダイアグラムの生成について研究し、粗い手書きスケッチを正確な構成図に変換する。
視覚言語モデル(VLM)とLarge Language Models(LLM)を結合した学習自由エージェントシステムSorted.を紹介する。
このシステムは、批判的VLMが小さな定性的な編集セットを提案する反復ループを実行し、複数の候補LPMが様々な戦略で更新を合成する。
この設計は、不安定な数値推定よりも定性的推論を優先し、大域的制約(例えば、アライメント、接続性)を保存し、自然に人間のループをサポートする。
論文 参考訳(メタデータ) (2025-08-21T04:20:36Z) - ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering [12.285453136336507]
本稿では,チャート上での正確かつ解釈可能な推論を可能にするための,コード駆動型フレームワークを提案する。
まず、多彩なチャート画像を構造化されたEChartsコードに変換するために、高忠実度モデルを訓練する。
次に、一般的なチャート推論データ合成パイプラインを設計する。
最後に、教師付き微調整と強化学習を組み合わせた最終マルチモーダルモデルを訓練する。
論文 参考訳(メタデータ) (2025-06-11T18:55:36Z) - ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - SciDoc2Diagrammer-MAF: Towards Generation of Scientific Diagrams from Documents guided by Multi-Aspect Feedback Refinement [22.07623299712134]
本稿では,学術論文から関連情報を抽出し,図を生成するSciDoc2Diagramを提案する。
中間コード生成を用いたユーザ意図に基づく図を生成するパイプラインSciDoc2Diagrammerを開発した。
論文 参考訳(メタデータ) (2024-09-28T05:10:39Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Promoting Graph Awareness in Linearized Graph-to-Text Generation [72.83863719868364]
局所グラフ構造を符号化する線形化モデルの能力を検討する。
本研究は,モデルの暗黙のグラフ符号化の品質を高めるための解法である。
これらの消音足場は、低リソース設定における下流生成の大幅な改善につながることが分かりました。
論文 参考訳(メタデータ) (2020-12-31T18:17:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。