論文の概要: Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach
- arxiv url: http://arxiv.org/abs/2506.06175v1
- Date: Fri, 06 Jun 2025 15:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.535564
- Title: Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach
- Title(参考訳): 動作は十分か? マルチエージェントアプローチによるテキスト・ツー・シャルト・ジェネレーションの再検討
- Authors: James Ford, Anthony Rios,
- Abstract要約: 大規模な言語モデルでは、自然言語チャートの記述を実行可能なコードに変換することができるが、生成したスクリプトの約15%はまだ実行できない。
本稿では,既製のGPT-4o-miniモデルのみを用いて,ドラフト,実行,修理,判断を分離する軽量マルチエージェントパイプラインを提案する。
- 参考スコア(独自算出の注目度): 7.613758211231583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can translate natural-language chart descriptions into runnable code, yet approximately 15\% of the generated scripts still fail to execute, even after supervised fine-tuning and reinforcement learning. We investigate whether this persistent error rate stems from model limitations or from reliance on a single-prompt design. To explore this, we propose a lightweight multi-agent pipeline that separates drafting, execution, repair, and judgment, using only an off-the-shelf GPT-4o-mini model. On the \textsc{Text2Chart31} benchmark, our system reduces execution errors to 4.5\% within three repair iterations, outperforming the strongest fine-tuned baseline by nearly 5 percentage points while requiring significantly less compute. Similar performance is observed on the \textsc{ChartX} benchmark, with an error rate of 4.6\%, demonstrating strong generalization. Under current benchmarks, execution success appears largely solved. However, manual review reveals that 6 out of 100 sampled charts contain hallucinations, and an LLM-based accessibility audit shows that only 33.3\% (\textsc{Text2Chart31}) and 7.2\% (\textsc{ChartX}) of generated charts satisfy basic colorblindness guidelines. These findings suggest that future work should shift focus from execution reliability toward improving chart aesthetics, semantic fidelity, and accessibility.
- Abstract(参考訳): 大規模な言語モデルは、自然言語チャートの記述を実行可能なコードに変換することができるが、生成したスクリプトの約15%は、教師付き微調整と強化学習の後に実行できない。
この持続的エラー率は、モデル制限によるものなのか、単発設計に依存したものなのかを考察する。
そこで本研究では,既製のGPT-4o-miniモデルのみを用いて,ドラフト,実行,修理,判断を分離する軽量マルチエージェントパイプラインを提案する。
このベンチマークでは, 3回の修理繰り返しで実行エラーが4.5\%に減少し, 微調整ベースラインが5ポイント近く向上し, 計算能力も大幅に低下した。
同様の性能は textsc{ChartX} ベンチマークで観測され、誤差率は 4.6 % であり、強い一般化を示している。
現在のベンチマークでは、実行の成功は大部分が解決されているようだ。
しかし、手作業によるレビューでは、100点中6点に幻覚が含まれており、LCMベースのアクセシビリティ監査では、生成されたチャートの33.3\%(\textsc{Text2Chart31})と7.2\%(\textsc{ChartX})のみが基本的な色覚ガイドラインを満たす。
これらの結果は、今後の作業は、実行の信頼性から、チャートの美学、セマンティックな忠実さ、アクセシビリティの改善へと焦点を移すべきであることを示唆している。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文 参考訳(メタデータ) (2024-05-11T12:33:46Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。