論文の概要: METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling
- arxiv url: http://arxiv.org/abs/2502.17651v1
- Date: Mon, 24 Feb 2025 21:01:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:50.213029
- Title: METAL: A Multi-Agent Framework for Chart Generation with Test-Time Scaling
- Title(参考訳): METAL: テスト時間スケーリングによるチャート生成のためのマルチエージェントフレームワーク
- Authors: Bingxuan Li, Yiwei Wang, Jiuxiang Gu, Kai-Wei Chang, Nanyun Peng,
- Abstract要約: 視覚言語モデル(VLM)をベースとした,効率的な自動チャート生成のためのマルチエージェントフレームワークを構築した。
グラフ生成のタスクを特殊エージェント間の反復的協調に分解するマルチエージェントフレームワークMETALを提案する。
- 参考スコア(独自算出の注目度): 100.33658998796064
- License:
- Abstract: Chart generation aims to generate code to produce charts satisfying the desired visual properties, e.g., texts, layout, color, and type. It has great potential to empower the automatic professional report generation in financial analysis, research presentation, education, and healthcare. In this work, we build a vision-language model (VLM) based multi-agent framework for effective automatic chart generation. Generating high-quality charts requires both strong visual design skills and precise coding capabilities that embed the desired visual properties into code. Such a complex multi-modal reasoning process is difficult for direct prompting of VLMs. To resolve these challenges, we propose METAL, a multi-agent framework that decomposes the task of chart generation into the iterative collaboration among specialized agents. METAL achieves 5.2% improvement in accuracy over the current best result in the chart generation task. The METAL framework exhibits the phenomenon of test-time scaling: its performance increases monotonically as the logarithmic computational budget grows from 512 to 8192 tokens. In addition, we find that separating different modalities during the critique process of METAL boosts the self-correction capability of VLMs in the multimodal context.
- Abstract(参考訳): チャート生成は、例えば、テキスト、レイアウト、色、型といった、望ましい視覚的特性を満たすチャートを生成するコードを生成することを目的としている。
金融分析、研究プレゼンテーション、教育、医療において、自動専門家レポート生成を強化する大きな可能性を秘めている。
本研究では,視覚言語モデル(VLM)に基づくマルチエージェントフレームワークを構築し,効率的な自動チャート生成を行う。
高品質なチャートを生成するには、強力なビジュアルデザインスキルと、望ましいビジュアルプロパティをコードに埋め込む正確なコーディング能力の両方が必要です。
このような複雑なマルチモーダル推論プロセスは、VLMの直接的プロンプトには困難である。
これらの課題を解決するために、我々は、チャート生成のタスクを特殊エージェント間の反復的な協調に分解するマルチエージェントフレームワークMETALを提案する。
METALは、チャート生成タスクにおける現在の最高の結果よりも精度が5.2%向上する。
METALフレームワークは、対数計算予算が512から8192トークンに増加するにつれて、単調にパフォーマンスが向上する。
さらに,METALの批判過程における異なるモダリティの分離により,マルチモーダルコンテキストにおけるVLMの自己補正能力が向上することがわかった。
関連論文リスト
- Dual-level Mixup for Graph Few-shot Learning with Fewer Tasks [23.07584018576066]
We propose a SiMple yet effectIve approach for graph few-shot Learning with fEwer task, named SMILE。
メタ学習において利用可能なノードとタスクを同時に強化するために、マルチレベルのミックスアップ戦略を導入し、タスク内とタスク間ミックスアップの両方を包含する。
経験的に言えば、SMILEは、ドメイン内設定とクロスドメイン設定で評価されたすべてのデータセットに対して、他の競合モデルよりも大きなマージンで、一貫して優れています。
論文 参考訳(メタデータ) (2025-02-19T23:59:05Z) - PlotGen: Multi-Agent LLM-based Scientific Data Visualization via Multimodal Feedback [47.79080056618323]
PlotGenは、精密な科学的可視化を作成することを目的とした、新しいマルチエージェントフレームワークである。
PlotGenは複数のオーケストレーションを行う。
ブレークするクエリプランニングエージェントを含む、検索エージェント。
複雑なユーザリクエストを実行可能コードにダウンします。
回収フィードバックエージェント
実験によると、PlotGenは強力なベースラインよりも優れており、MateBenchデータセットで46%改善されている。
論文 参考訳(メタデータ) (2025-02-03T02:00:29Z) - Multimodal Graph Constrastive Learning and Prompt for ChartQA [11.828192162922436]
ChartQAは、チャート要素の複雑な分布と、基礎となるデータに埋め込まれた暗黙のパターンによって、大きな課題を提示します。
我々は,チャート要素とその関連パターンの関係を明示的に表現した,チャート用の共同マルチモーダルシーングラフを開発した。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - MuseGraph: Graph-oriented Instruction Tuning of Large Language Models
for Generic Graph Mining [41.19687587548107]
グラフニューラルネットワーク(GNN)は、異なるグラフタスクやデータセットに適用されるたびに、再トレーニングされる必要がある。
GNNとLarge Language Models(LLM)の強みをシームレスに統合する新しいフレームワークMusteGraphを提案する。
実験結果から,異なるグラフタスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-03-02T09:27:32Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。