論文の概要: DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM
Planning
- arxiv url: http://arxiv.org/abs/2310.12128v1
- Date: Wed, 18 Oct 2023 17:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:26:02.958097
- Title: DiagrammerGPT: Generating Open-Domain, Open-Platform Diagrams via LLM
Planning
- Title(参考訳): DiagrammerGPT: LLMプランニングによるオープンドメイン・オープンプラットフォームダイアグラムの生成
- Authors: Abhay Zala, Han Lin, Jaemin Cho, Mohit Bansal
- Abstract要約: 図は、構造的にリッチで空間的に複雑な視覚化を用いて情報を説明する記号的・スキーマ的表現である。
既存の最先端のT2Iモデルは、細粒度のオブジェクトレイアウト制御が欠けているため、ダイアグラム生成時に失敗することが多い。
本稿では,新しい2段階のテキスト・ツー・ダイアグラム生成フレームワークであるDiagrammerGPTを紹介する。
- 参考スコア(独自算出の注目度): 68.29022238719023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generation has seen significant growth over the past few
years. Despite this, there has been little work on generating diagrams with T2I
models. A diagram is a symbolic/schematic representation that explains
information using structurally rich and spatially complex visualizations (e.g.,
a dense combination of related objects, text labels, directional arrows,
connection lines, etc.). Existing state-of-the-art T2I models often fail at
diagram generation because they lack fine-grained object layout control when
many objects are densely connected via complex relations such as arrows/lines
and also often fail to render comprehensible text labels. To address this gap,
we present DiagrammerGPT, a novel two-stage text-to-diagram generation
framework that leverages the layout guidance capabilities of LLMs (e.g., GPT-4)
to generate more accurate open-domain, open-platform diagrams. In the first
stage, we use LLMs to generate and iteratively refine 'diagram plans' (in a
planner-auditor feedback loop) which describe all the entities (objects and
text labels), their relationships (arrows or lines), and their bounding box
layouts. In the second stage, we use a diagram generator, DiagramGLIGEN, and a
text label rendering module to generate diagrams following the diagram plans.
To benchmark the text-to-diagram generation task, we introduce AI2D-Caption, a
densely annotated diagram dataset built on top of the AI2D dataset. We show
quantitatively and qualitatively that our DiagrammerGPT framework produces more
accurate diagrams, outperforming existing T2I models. We also provide
comprehensive analysis including open-domain diagram generation, vector graphic
diagram generation in different platforms, human-in-the-loop diagram plan
editing, and multimodal planner/auditor LLMs (e.g., GPT-4Vision). We hope our
work can inspire further research on diagram generation via T2I models and
LLMs.
- Abstract(参考訳): text-to-image (t2i) 世代はここ数年で大きな成長を遂げている。
それにもかかわらず、T2Iモデルでダイアグラムを生成する作業はほとんど行われていない。
図は、構造的にリッチで空間的に複雑な視覚化(例えば、関連するオブジェクト、テキストラベル、方向矢印、接続線などの密結合)を使用して情報を説明する記号/スキーム表現である。
既存の最先端のT2Iモデルは、多くのオブジェクトが矢印や線のような複雑な関係によって密結合されているときに、細粒度なオブジェクトレイアウト制御が欠けているため、図生成時に失敗することが多い。
llms(gpt-4など)のレイアウトガイダンス機能を活用し、より正確なopen-domain、open-platformダイアグラムを生成する、新しい2段階のテキスト-ダイアグラム生成フレームワークであるdiagrammergptを提案する。
最初の段階では、LCMを使用して、すべてのエンティティ(オブジェクトやテキストラベル)、それらの関係(矢印や線)、および境界ボックスレイアウトを記述した'ダイアグラムプラン'(プランナーとオーディタのフィードバックループ)を生成し、反復的に洗練します。
第2段階ではダイアグラム生成器,ダイアグラムGLIGEN,およびテキストラベルレンダリングモジュールを使用してダイアグラム計画に従ってダイアグラムを生成する。
テキストからダイアグラムを生成するタスクをベンチマークするために,AI2Dデータセット上に構築された高密度アノテーション付きダイアグラムデータセットであるAI2D-Captionを導入する。
我々は,DiagrammerGPTフレームワークが既存のT2Iモデルよりも精度の高いダイアグラムを生成することを示す。
また、オープンドメイン図生成、異なるプラットフォームでのベクトル図生成、ヒューマン・イン・ザ・ループ図計画編集、マルチモーダルプランナー/オーディタLLM(例えば、GPT-4Vision)などの包括的な分析も提供する。
我々は、T2IモデルとLLMによる図生成に関するさらなる研究を期待する。
関連論文リスト
- InstructG2I: Synthesizing Images from Multimodal Attributed Graphs [50.852150521561676]
InstructG2Iと呼ばれるグラフ文脈条件拡散モデルを提案する。
InstructG2Iはまずグラフ構造とマルチモーダル情報を利用して情報的隣人サンプリングを行う。
Graph-QFormerエンコーダは、グラフノードをグラフプロンプトの補助セットに適応的に符号化し、デノナイジングプロセスを導く。
論文 参考訳(メタデータ) (2024-10-09T17:56:15Z) - Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - INFINITY: A Simple Yet Effective Unsupervised Framework for Graph-Text
Mutual Conversion [43.70416280548082]
グラフ・ツー・テキスト(G2T)生成とテキスト・ツー・グラフ(T2G)トリプル抽出は知識グラフの構築と適用に不可欠である。
既存の教師なしのアプローチは、グラフテキスト並列データの使用を避けるため、2つのタスクを共同で学習するのに適した候補であることが判明した。
我々は、外部アノテーションツールや追加の並列情報を必要としない、シンプルで効果的な教師なしアプローチであるINFINITYを提案する。
論文 参考訳(メタデータ) (2022-09-22T03:12:43Z) - JointGT: Graph-Text Joint Representation Learning for Text Generation
from Knowledge Graphs [44.06715423776722]
本論文では,ジョイントGTと呼ばれるグラフテキスト共同表現学習モデルを提案する。
エンコーディング中、各トランスフォーマー層にプラグインされた構造対応セマンティックアグリゲーションモジュールを考案した。
種々のKG-to-textデータセット上で,JointGTが新たな最先端性能を得ることを示す。
論文 参考訳(メタデータ) (2021-06-19T14:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。