論文の概要: Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding
- arxiv url: http://arxiv.org/abs/2605.10855v1
- Date: Mon, 11 May 2026 17:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.019352
- Title: Learning More from Less: Exploiting Counterfactuals for Data-Efficient Chart Understanding
- Title(参考訳): 教訓から学ぶ:データ効率のよいチャート理解のための反ファクトを爆発させる
- Authors: Jianzhu Bao, Haozhen Zhang, Kuicai Dong, Bozhi Wu, Sarthak Ketanbhai Modi, Zi Pong Lim, Yon Shin Teo, Wenya Wang,
- Abstract要約: データ効率のよいトレーニングフレームワークであるChartCFを導入する。
実験により、ChartCFは、トレーニングデータを大幅に少なくしながら、強力なチャート固有のVLMよりも優れた、あるいは同等のパフォーマンスを実現していることが示された。
- 参考スコア(独自算出の注目度): 27.38027055977966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated remarkable progress in chart understanding, largely driven by supervised fine-tuning (SFT) on increasingly large synthetic datasets. However, scaling SFT data alone is inefficient and overlooks a key property of charts: charts are programmatically generated visual artifacts, where small, code-controlled visual changes can induce drastic shifts in semantics and correct answers. Learning this counterfactual sensitivity requires VLMs to discriminate fine-grained visual differences, yet standard SFT treats training instances independently and provides limited supervision to enforce this behavior. To address this, we introduce ChartCF, a data-efficient training framework designed to enhance counterfactual sensitivity. ChartCF consists of: (1) a counterfactual data synthesis pipeline via code modification, (2) a chart similarity-based data selection strategy that filters overly difficult samples for improved training efficiency, and (3) multimodal preference optimization across both textual and visual modalities. Experiments on five benchmarks show that ChartCF achieves superior or comparable performance to strong chart-specific VLMs while using significantly less training data.
- Abstract(参考訳): VLM(Vision-Language Models)は、大規模合成データセットの教師付き微調整(SFT)によって、チャート理解において顕著な進歩を見せている。
しかし、SFTデータのスケーリングは非効率であり、チャートの重要な特性を見落としている: チャートはプログラム的に生成されたビジュアルアーティファクトである。
しかし、標準的なSFTはトレーニングインスタンスを独立して扱い、この動作を強制するための限られた監督を提供する。
この問題に対処するために我々は,データ効率のよいトレーニングフレームワークであるChartCFを紹介した。
ChartCFは,(1)コード修正による対物データ合成パイプライン,(2)学習効率を向上させるために過度に難しいサンプルをフィルタリングするチャート類似性に基づくデータ選択戦略,(3)テキストと視覚の両モードをまたいだマルチモーダルな選好最適化からなる。
5つのベンチマークの実験では、ChartCFは、トレーニングデータを大幅に少なくしながら、強いチャート固有のVLMよりも優れた、あるいは同等のパフォーマンスを達成している。
関連論文リスト
- VTBench: A Multimodal Framework for Time-Series Classification with Chart-Based Representations [11.42837813008733]
VTBenchは、生の配列とチャートに基づく視覚化のマルチモーダル融合を通じて再検討するフレームワークである。
マルチチャート・ビジュアル・数値融合,マルチチャート・ビジュアル・フュージョン,および生入力によるマルチモーダル・フュージョンを含む,複数の融合戦略をサポートするモジュールアーキテクチャを開発した。
論文 参考訳(メタデータ) (2026-04-29T23:17:33Z) - CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution [23.66187133157774]
CharTideは、チャート・ツー・コード生成のための新しいデータ中心のフレームワークである。
トレーニングを視覚的知覚、純粋テキストのコードロジック、モダリティの融合ストリームに明確に分離する。
ChartMimic、Plot2Code、ChartXの実験によると、ChartTide-7B/8Bはオープンソースベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2026-04-24T03:39:51Z) - Breaking the SFT Plateau: Multimodal Structured Reinforcement Learning for Chart-to-Code Generation [12.822184232115333]
本稿では,マルチモーダル構造化強化学習(MSRL)を提案する。
実世界のarXivテーブルから300万のチャートコードペアを含む,これまでで最大のトレーニングコーパスを構築した。
MSRLはSFT高原を著しく破壊し、ChartMimicとReachQAのベンチマークでそれぞれ6.2%と9.9%の高水準のメトリクスを改善した。
論文 参考訳(メタデータ) (2025-08-19T07:40:18Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - Advancing Multimodal Large Language Models in Chart Question Answering with Visualization-Referenced Instruction Tuning [1.6570772838074355]
マルチモーダル大言語モデル(MLLM)は、チャート質問応答(CQA)に大きな可能性を示す
近年の取り組みは、データ収集と合成によるデータセットのスケールアップに重点を置いている。
本稿では,トレーニングデータセットの強化とモデル開発を指導するための,可視化参照型指導チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:04:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine [85.80851893886161]
MLLMのための数学的なVISual命令チューニングパイプラインであるMAVISを提案する。
我々はMAVIS-Captionを用いて、図形視覚符号化の改善に適したコントラスト学習により、数学固有の視覚エンコーダ(CLIP-Math)を微調整する。
第3に、ロバストな問題解決スキルの指導チューニングを行うためにMAVIS-Instructを採用し、結果のモデルをMAVIS-7Bと呼ぶ。
論文 参考訳(メタデータ) (2024-07-11T17:59:47Z) - Graph Contrastive Learning Automated [94.41860307845812]
グラフコントラスト学習(GraphCL)は、有望な表現学習性能とともに登場した。
GraphCLのヒンジがアドホックなデータ拡張に与える影響は、データセット毎に手動で選択する必要がある。
本稿では,グラフデータ上でGraphCLを実行する際に,データ拡張を自動的に,適応的に動的に選択する統合バイレベル最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-10T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。