論文の概要: Chart-CoCa: Self-Improving Chart Understanding of Vision LMs via Code-Driven Synthesis and Candidate-Conditioned Answering
- arxiv url: http://arxiv.org/abs/2508.11975v1
- Date: Sat, 16 Aug 2025 08:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.490798
- Title: Chart-CoCa: Self-Improving Chart Understanding of Vision LMs via Code-Driven Synthesis and Candidate-Conditioned Answering
- Title(参考訳): Chart-CoCa: コード駆動合成と候補解答によるビジョンLMの自己改善チャート理解
- Authors: Gongyao Jiang, Qiong Luo,
- Abstract要約: 視覚言語モデル(VLM)は、チャート理解タスク、特に正確なチャート記述や複雑な推論においてしばしば苦労する。
本稿では,コード生成と実行を通じてチャート検索三重項を協調的に生成するチャート合成パイプラインを提案する。
実験では、初期のVLMよりも15.50ポイントの精度が向上した。
- 参考スコア(独自算出の注目度): 4.036085193573325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Language Models (VLMs) often struggle with chart understanding tasks, particularly in accurate chart description and complex reasoning. Synthetic data generation is a promising solution, while usually facing the challenge of noise labels. To address this challenge, we first introduce a chart synthesis pipeline that generates aligned chart-question-answer triplets through code generation and execution, ensuring the reliability of synthetic data without human intervention. Furthermore, inspired by test-time scaling that increases inference budget and thereby improves performance, we design a candidate-conditioned answering process. The VLM first generates multiple responses per query, and then synthesizes the final answer by contextualizing these candidates. Experiments demonstrate significant improvements, with up to 15.50 points accuracy gain over the initial VLM, in a fully self-improving paradigm without either human-labeled data or external models.
- Abstract(参考訳): 視覚言語モデル(VLM)は、チャート理解タスク、特に正確なチャート記述や複雑な推論においてしばしば苦労する。
合成データ生成は有望なソリューションであるが、通常、ノイズラベルの課題に直面している。
この課題に対処するために、まず、コード生成と実行を通じて整列式チャート検索三重項を生成するチャート合成パイプラインを導入し、人間の介入なしに合成データの信頼性を確保する。
さらに、推論予算を増大させ、性能を向上させるテストタイムスケーリングにインスパイアされ、候補条件付き回答プロセスが設計される。
VLMはまずクエリ毎に複数の応答を生成し、次にこれらの候補を文脈化することで最終回答を合成する。
実験では、人間のラベル付きデータや外部モデルなしで完全に自己改善されたパラダイムで、初期のVLMよりも最大15.50ポイント精度が向上した。
関連論文リスト
- Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [75.9865035064794]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - From the Least to the Most: Building a Plug-and-Play Visual Reasoner via Data Synthesis [38.256412418893554]
視覚言語モデル(VLM)における多段階推論について検討する。
まず、質問のステップをサブクエストにインターリーブする、最小から最短の視覚的推論パラダイムを導入する。
画像に対する質問や多段階の推論経路を自動生成する新しいデータ合成手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T14:04:10Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。