Fugu-MT 論文翻訳(概要): DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning

論文の概要: DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning

arxiv url: http://arxiv.org/abs/2310.12128v2
Date: Mon, 15 Jul 2024 16:32:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-17 02:54:11.655576
Title: DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM Planning
Title（参考訳）: DiagrammerGPT: LLMプランニングによるオープンドメイン・オープンプラットフォームダイアグラムの生成
Authors: Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal,
Abstract要約: テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。我々のフレームワークは、既存のT2Iモデルを上回る精度で、より正確なダイアグラムを生成する。
参考スコア（独自算出の注目度）: 62.51232333352754
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image (T2I) generation has seen significant growth over the past few years. Despite this, there has been little work on generating diagrams with T2I models. A diagram is a symbolic/schematic representation that explains information using structurally rich and spatially complex visualizations (e.g., a dense combination of related objects, text labels, directional arrows/lines, etc.). Existing state-of-the-art T2I models often fail at diagram generation because they lack fine-grained object layout control when many objects are densely connected via complex relations such as arrows/lines, and also often fail to render comprehensible text labels. To address this gap, we present DiagrammerGPT, a novel two-stage text-to-diagram generation framework leveraging the layout guidance capabilities of LLMs to generate more accurate diagrams. In the first stage, we use LLMs to generate and iteratively refine 'diagram plans' (in a planner-auditor feedback loop). In the second stage, we use a diagram generator, DiagramGLIGEN, and a text label rendering module to generate diagrams (with clear text labels) following the diagram plans. To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a densely annotated diagram dataset built on top of the AI2D dataset. We show that our DiagrammerGPT framework produces more accurate diagrams, outperforming existing T2I models. We also provide comprehensive analysis, including open-domain diagram generation, multi-platform vector graphic diagram generation, human-in-the-loop editing, and multimodal planner/auditor LLMs.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)世代はここ数年で著しい成長を遂げている。それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。図は、構造的に豊かで空間的に複雑な視覚化(例えば、関連するオブジェクト、テキストラベル、方向矢印や線などの密結合)を使って情報を説明する記号的・スキーマ的表現である。既存の最先端のT2Iモデルは、多くのオブジェクトが矢印や線のような複雑な関係によって密結合されているときに、細粒度のオブジェクトレイアウト制御が欠けているため、図生成時に失敗することが多い。このギャップに対処するため、LLMのレイアウト誘導機能を活用してより正確な図を生成する新しい2段階のテキスト-ダイアグラム生成フレームワークであるDiagrammerGPTを提案する。最初の段階では、LLMを使って'ダイアグラムプラン'を生成し、反復的に洗練する(プランナー・オーディタフィードバックループで)。第2段階ではダイアグラム生成器,ダイアグラムGLIGEN,およびテキストラベルレンダリングモジュールを使用して,ダイアグラム計画に従ってダイアグラムを生成する(明確なテキストラベルを持つ)。テキストからダイアグラムを生成するタスクをベンチマークするために,AI2Dデータセット上に構築された高密度アノテーション付きダイアグラムデータセットであるAI2D-Captionを導入する。我々のDiagrammerGPTフレームワークは、既存のT2Iモデルよりも正確なダイアグラムを生成する。また、オープンドメイン図生成、マルチプラットフォームベクタグラフィック図生成、ヒューマン・イン・ザ・ループ編集、マルチモーダルプランナー/オーディタLLMなど、包括的な分析も提供する。

関連論文リスト

START: Spatial and Textual Learning for Chart Understanding [11.769123092079203]
chART理解のための空間的およびテクスチャ的学習であるSTARTを提案する。 i) チャート要素のグラウンド化と (ii) チャートからコードへの生成を導入し, チャートの視覚的レイアウトとデータ詳細に関するMLLMの理解を深める。コード、データ、モデルは公開されます。
論文参考訳（メタデータ） (2025-12-08T05:43:14Z)
ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文参考訳（メタデータ） (2025-11-29T04:01:55Z)
DiagramEval: Evaluating LLM-Generated Diagrams via Graphs [25.040934047462112]
有望な方向性は、SVGとしてテキスト形式で直接デモダイアグラムを生成することである、と我々は主張する。大規模言語モデルにより生成された実演図の質を評価するために設計された新しい評価指標であるDiagramEvalを提案する。
論文参考訳（メタデータ） (2025-10-29T17:56:17Z)
ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation [16.452660608535002]
インフォグラフィックチャートの理解を促進するために設計された100万規模のデータセットであるChartGalaxyを紹介する。データセットは、実際のインフォグラフィックチャートから75のチャートタイプ、330のチャートバリエーション、68のテンプレートを識別するインダクティブプロセスによって構築される。 1)微調整によるインフォグラフィックチャート理解の改善,2)インフォグラフィックチャートのベンチマークコード生成,3)インフォグラフィックチャート生成の実現。
論文参考訳（メタデータ） (2025-05-24T12:06:22Z)
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。 Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文参考訳（メタデータ） (2025-05-22T05:15:27Z)
Enhancing Chart-to-Code Generation in Multimodal Large Language Models via Iterative Dual Preference Learning [16.22363384653305]
Chart2Codeは、チャート・ツー・コード生成のための新しい反復的な二重選好学習フレームワークである。 Chart2Codeは、ディストリビューション外のチャート・ツー・コード生成品質を継続的に改善する。我々のフレームワークは、チャート理解における今後の進歩の道を開く。
論文参考訳（メタデータ） (2025-04-03T07:51:20Z)
LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [54.82915844507371]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文参考訳（メタデータ） (2025-03-05T09:45:22Z)
Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文参考訳（メタデータ） (2025-02-20T13:47:51Z)
A Schema-Guided Reason-while-Retrieve framework for Reasoning on Scene Graphs with Large-Language-Models (LLMs) [5.37125692728042]
SceneGuided RetrieveRwRは、グラフによる推論と計画のためのフレームワークである。我々のフレームワークは、数値Q&Aや計画タスクにおいて、既存のLCMベースのアプローチを超越していることを示す。
論文参考訳（メタデータ） (2025-02-05T18:50:38Z)
ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [90.82566869965011]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。 textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文参考訳（メタデータ） (2025-01-11T17:52:22Z)
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。 InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。 Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文参考訳（メタデータ） (2024-10-09T17:56:15Z)
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文参考訳（メタデータ） (2024-10-05T07:25:56Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文参考訳（メタデータ） (2024-04-10T15:41:53Z)
LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。 LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文参考訳（メタデータ） (2024-02-13T02:03:26Z)
GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文参考訳（メタデータ） (2023-10-19T06:17:46Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)
INFINITY: A Simple Yet Effective Unsupervised Framework for Graph-Text Mutual Conversion [43.70416280548082]
グラフ・ツー・テキスト(G2T)生成とテキスト・ツー・グラフ(T2G)トリプル抽出は知識グラフの構築と適用に不可欠である。既存の教師なしのアプローチは、グラフテキスト並列データの使用を避けるため、2つのタスクを共同で学習するのに適した候補であることが判明した。我々は、外部アノテーションツールや追加の並列情報を必要としない、シンプルで効果的な教師なしアプローチであるINFINITYを提案する。
論文参考訳（メタデータ） (2022-09-22T03:12:43Z)
JointGT: Graph-Text Joint Representation Learning for Text Generation from Knowledge Graphs [44.06715423776722]
本論文では,ジョイントGTと呼ばれるグラフテキスト共同表現学習モデルを提案する。エンコーディング中、各トランスフォーマー層にプラグインされた構造対応セマンティックアグリゲーションモジュールを考案した。種々のKG-to-textデータセット上で,JointGTが新たな最先端性能を得ることを示す。
論文参考訳（メタデータ） (2021-06-19T14:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。