論文の概要: Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
- arxiv url: http://arxiv.org/abs/2603.28583v1
- Date: Mon, 30 Mar 2026 15:32:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.483531
- Title: Navigating the Mirage: A Dual-Path Agentic Framework for Robust Misleading Chart Question Answering
- Title(参考訳): ミラージュをナビゲートする:ロバストなミスリーディングチャート質問応答のためのデュアルパスエージェントフレームワーク
- Authors: Yanjie Zhang, Yafei Li, Rui Sheng, Zixin Chen, Yanna Lin, Huamin Qu, Lei Chen, Yushi Sun,
- Abstract要約: ChartCynicsは「懐疑的」推論パラダイムを通じて視覚的騙しを解き放つように設計されたフレームワークである。
エージェント Summarizer は2段階のプロトコルにより最適化された: Oracle-Informed SFT による蒸留の推論と対向アライメントのためのDeception-Aware GRPO である。
我々は,ChartCynicsが74.43%,64.55%の精度を実現し,Qwen3-VL-8Bのバックボーンよりも29%の絶対的な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 40.87166294341564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success of Vision-Language Models (VLMs), misleading charts remain a significant challenge due to their deceptive visual structures and distorted data representations. We present ChartCynics, an agentic dual-path framework designed to unmask visual deception via a "skeptical" reasoning paradigm. Unlike holistic models, ChartCynics decouples perception from verification: a Diagnostic Vision Path captures structural anomalies (e.g., inverted axes) through strategic ROI cropping, while an OCR-Driven Data Path ensures numerical grounding. To resolve cross-modal conflicts, we introduce an Agentic Summarizer optimized via a two-stage protocol: Oracle-Informed SFT for reasoning distillation and Deception-Aware GRPO for adversarial alignment. This pipeline effectively penalizes visual traps and enforces logical consistency. Evaluations on two benchmarks show that ChartCynics achieves 74.43% and 64.55% accuracy, providing an absolute performance boost of ~29% over the Qwen3-VL-8B backbone, outperforming state-of-the-art proprietary models. Our results demonstrate that specialized agentic workflows can grant smaller open-source models superior robustness, establishing a new foundation for trustworthy chart interpretation.
- Abstract(参考訳): VLM(Vision-Language Models)の成功にもかかわらず、誤った視覚構造と歪んだデータ表現のため、誤解を招くチャートは依然として重要な課題である。
ChartCynicsは「疑わしい」推論パラダイムを通じて視覚的欺きを解き放つために設計されたエージェント的デュアルパスフレームワークである。
診断ビジョンパスは、戦略的ROIトリミングを通じて構造上の異常(例えば、反転軸)をキャプチャし、OCR駆動データパスは数値的な接地を保証する。
クロスモーダルな競合を解決するために,Oracle-Informed SFTとDeception-Aware GRPOという2段階のプロトコルを用いて最適化されたエージェント・サムライザを導入する。
このパイプラインは視覚的トラップを効果的に罰し、論理的一貫性を強制する。
2つのベンチマークでの評価によると、ChartCynicsは74.43%と64.55%の精度を達成し、Qwen3-VL-8Bのバックボーンよりも29%以上のパフォーマンス向上を実現し、最先端のプロプライエタリモデルを上回った。
以上の結果から,特殊なエージェントワークフローは,信頼性の高いグラフ解釈のための新たな基盤を確立するため,より小型のオープンソースモデルを実現することが可能であることが示唆された。
関連論文リスト
- TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation [11.18352269863283]
VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:08:06Z) - ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch [57.01439313241121]
グラフの複雑さを定量化する新しい指標であるRollout Posterior Entropy(RPE)を紹介する。
また、推論厳密性を保証するために、真正対応の逆QA合成を開発する。
さらに, モデルフェールレートに基づく試料をろ過し, 高品質なCoT (Chain-of-Thought) 推算を行った。
論文 参考訳(メタデータ) (2026-01-20T05:11:44Z) - Losing the Plot: How VLM responses degrade on imperfect charts [11.071294641688496]
視覚言語モデル(VLM)は、チャート理解において強力な結果を示すが、既存のベンチマークでは、明確な数字と事実に基づくクエリを仮定している。
我々はChatGPT 4o, Claude Sonnet 4, Gemini 2.5 Proを評価し, 汚損や隠蔽下での急激な性能低下を見出した。
重要なイノベーションは、モデルが同じ声明を確認または否定するよう求められたときに矛盾する、逆の矛盾を早急に起こすことだ。
論文 参考訳(メタデータ) (2025-09-22T21:12:20Z) - Robust Diagram Reasoning: A Framework for Enhancing LVLM Performance on Visually Perturbed Scientific Diagrams [0.81996963503528]
LLM(Large Language Models)とLVLM(Large Language Models)は、科学と工学の応用を大いに約束する。
既存の評価ベンチマークはこの課題を概ね見落としており、LVLMの堅牢な推論能力は過小評価されている。
本稿では,ロバストダイアグラム推論(RDR)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-08-23T09:50:58Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Counterfactual Intervention Feature Transfer for Visible-Infrared Person
Re-identification [69.45543438974963]
視覚赤外人物再識別タスク(VI-ReID)におけるグラフベースの手法は,2つの問題により,悪い一般化に悩まされている。
十分に訓練された入力特徴は、グラフトポロジーの学習を弱め、推論過程において十分に一般化されない。
本稿では,これらの問題に対処するためのCIFT法を提案する。
論文 参考訳(メタデータ) (2022-08-01T16:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。