論文の概要: Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach
- arxiv url: http://arxiv.org/abs/2506.06175v1
- Date: Fri, 06 Jun 2025 15:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.535564
- Title: Does It Run and Is That Enough? Revisiting Text-to-Chart Generation with a Multi-Agent Approach
- Title(参考訳): 動作は十分か? マルチエージェントアプローチによるテキスト・ツー・シャルト・ジェネレーションの再検討
- Authors: James Ford, Anthony Rios,
- Abstract要約: 大規模な言語モデルでは、自然言語チャートの記述を実行可能なコードに変換することができるが、生成したスクリプトの約15%はまだ実行できない。
本稿では,既製のGPT-4o-miniモデルのみを用いて,ドラフト,実行,修理,判断を分離する軽量マルチエージェントパイプラインを提案する。
- 参考スコア(独自算出の注目度): 7.613758211231583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can translate natural-language chart descriptions into runnable code, yet approximately 15\% of the generated scripts still fail to execute, even after supervised fine-tuning and reinforcement learning. We investigate whether this persistent error rate stems from model limitations or from reliance on a single-prompt design. To explore this, we propose a lightweight multi-agent pipeline that separates drafting, execution, repair, and judgment, using only an off-the-shelf GPT-4o-mini model. On the \textsc{Text2Chart31} benchmark, our system reduces execution errors to 4.5\% within three repair iterations, outperforming the strongest fine-tuned baseline by nearly 5 percentage points while requiring significantly less compute. Similar performance is observed on the \textsc{ChartX} benchmark, with an error rate of 4.6\%, demonstrating strong generalization. Under current benchmarks, execution success appears largely solved. However, manual review reveals that 6 out of 100 sampled charts contain hallucinations, and an LLM-based accessibility audit shows that only 33.3\% (\textsc{Text2Chart31}) and 7.2\% (\textsc{ChartX}) of generated charts satisfy basic colorblindness guidelines. These findings suggest that future work should shift focus from execution reliability toward improving chart aesthetics, semantic fidelity, and accessibility.
- Abstract(参考訳): 大規模な言語モデルは、自然言語チャートの記述を実行可能なコードに変換することができるが、生成したスクリプトの約15%は、教師付き微調整と強化学習の後に実行できない。
この持続的エラー率は、モデル制限によるものなのか、単発設計に依存したものなのかを考察する。
そこで本研究では,既製のGPT-4o-miniモデルのみを用いて,ドラフト,実行,修理,判断を分離する軽量マルチエージェントパイプラインを提案する。
このベンチマークでは, 3回の修理繰り返しで実行エラーが4.5\%に減少し, 微調整ベースラインが5ポイント近く向上し, 計算能力も大幅に低下した。
同様の性能は textsc{ChartX} ベンチマークで観測され、誤差率は 4.6 % であり、強い一般化を示している。
現在のベンチマークでは、実行の成功は大部分が解決されているようだ。
しかし、手作業によるレビューでは、100点中6点に幻覚が含まれており、LCMベースのアクセシビリティ監査では、生成されたチャートの33.3\%(\textsc{Text2Chart31})と7.2\%(\textsc{ChartX})のみが基本的な色覚ガイドラインを満たす。
これらの結果は、今後の作業は、実行の信頼性から、チャートの美学、セマンティックな忠実さ、アクセシビリティの改善へと焦点を移すべきであることを示唆している。
関連論文リスト
- Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation [11.18352269863283]
VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:08:06Z) - ChartAttack: Testing the Vulnerability of LLMs to Malicious Prompting in Chart Generation [51.49421299447412]
マルチモーダルな大言語モデル(MLLM)は、データテーブルからのチャート生成を自動化するためにますます使われている。
ChartAttackは,MLLMを誤用して大規模にミスリードチャートを生成する方法を評価するフレームワークである。
論文 参考訳(メタデータ) (2026-01-19T11:57:48Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions [65.21061221740388]
本稿では,ユーザ意図を自然言語と視覚指標の組み合わせで表現する,マルチモーダルチャート編集のための新しいパラダイムを提案する。
マルチモードチャート編集のための新しいベンチマークであるChart$textM3$を,マルチレベル複雑度とマルチパースペクティブ評価で提示する。
論文 参考訳(メタデータ) (2025-07-25T13:30:14Z) - GraphRunner: A Multi-Stage Framework for Efficient and Accurate Graph-Based Retrieval [3.792463570467098]
GraphRunnerは、新しいグラフベースの検索フレームワークで、計画、検証、実行の3つの異なる段階で動作する。
推論エラーを著しく低減し、実行前に幻覚を検出する。
GRBenchデータセットによる評価は、GraphRunnerが既存のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-07-11T18:10:01Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - ChartCoder: Advancing Multimodal Large Language Model for Chart-to-Code Generation [62.88742217569754]
textbfChartCoderは、最初の専用チャートからコードへのMLLMである。
textbfChart2Code-160kは、チャート・ツー・コード生成のための、最初の大規模かつ多様なデータセットである。
実験によると、ChartCoderは7Bパラメータしか持たないが、チャート・トゥ・コードベンチマークで既存のオープンソースのMLLMを超えている。
論文 参考訳(メタデータ) (2025-01-11T17:52:22Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文 参考訳(メタデータ) (2024-05-11T12:33:46Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。