論文の概要: Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts
- arxiv url: http://arxiv.org/abs/2605.01882v1
- Date: Sun, 03 May 2026 13:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.979187
- Title: Chart-FR1: Visual Focus-Driven Fine-Grained Reasoning on Dense Charts
- Title(参考訳): Chart-FR1: ビジュアルフォーカス駆動の微粒化推論
- Authors: Hongkun Pan, Yuwei Wu, Wanyi Hong, Shenghui Hu, Qitong Yan, Yi Yang, Rufei Han, Changju Zhou, Minfeng Zhu, Dongming Han, Wei Chen,
- Abstract要約: 本稿では,HIDチャート上での認識,集中効率,適応的深部推論を改善するために,焦点駆動型微粒チャート推論モデルChart-FR1を提案する。
具体的には,視覚的焦点の連鎖であるFocus-CoTを提案する。
HIDチャートのベンチマークのギャップを埋めるために、我々は、詳細なチャート推論機能を評価するために設計された、情報密度メトリックを備えた挑戦的なベンチマークであるHID-Chartを構築した。
- 参考スコア(独自算出の注目度): 11.918727404835934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown considerable potential in chart understanding and reasoning tasks. However, they still struggle with high information density (HID) charts characterized by multiple subplots, legends, and dense annotations due to three major challenges: (1) limited fine-grained perception results in the omission of critical visual cues; (2) redundant or noisy visual information undermines the performance of multimodal reasoning; (3) lack of adaptive deep reasoning relative to the amount of visual information. To tackle these challenges, we present a novel focus-driven fine-grained chart reasoning model, Chart-FR1, to improve perception, focusing efficiency, and adaptive deep reasoning on HID charts. Specifically, we propose Focus-CoT, a visual focusing chain-of-thought that enhances fine-grained perception by explicitly linking reasoning steps to key visual cues, such as local image regions and OCR signals. Building on this, we introduce Focus-GRPO, a focus-driven reinforcement learning algorithm with an information-efficiency reward that compresses redundant visual information for efficient focusing, and an adaptive KL penalty mechanism that enables flexible control over reasoning depth as more visual cues are discovered. Furthermore, to fill the gap in benchmarks for HID charts, we build HID-Chart, a challenging benchmark with an information-density metric designed to evaluate fine-grained chart reasoning capabilities. Extensive experiments on multiple chart benchmarks demonstrate that Chart-FR1 outperforms state-of-the-art MLLMs in chart understanding and reasoning. Code is available at https://github.com/phkhub/Chart-FR1.
- Abstract(参考訳): マルチモーダルな大言語モデル(MLLM)は、チャート理解と推論タスクにおいて大きな可能性を示している。
しかし、3つの大きな課題により、(1)きめ細かな知覚が重要な視覚的手がかりの欠如を招き、(2)冗長またはノイズの多い視覚情報がマルチモーダル推論のパフォーマンスを損なうこと、(3)視覚情報量に対する適応的な深い推論が欠如すること、の3つにより、ハイ情報密度(HID)チャートに苦慮している。
これらの課題に対処するため,HIDチャートにおける認識の向上,集中効率の向上,適応的深部推論のための,焦点駆動型微粒化チャート推論モデルであるChart-FR1を提案する。
具体的には、局所画像領域やOCR信号などの重要な視覚的手がかりに推論ステップを明示的にリンクすることで、微妙な知覚を高める視覚的焦点連鎖であるFocus-CoTを提案する。
そこで我々は,集中型強化学習アルゴリズムであるFocus-GRPOを導入する。このアルゴリズムは,効率的なフォーカスのために冗長な視覚情報を圧縮する情報効率の報奨と,より視覚的な手がかりが発見されるにつれて推論深度を柔軟に制御できる適応KLペナルティ機構である。
さらに、HIDチャートのベンチマークのギャップを埋めるために、細粒度チャートの推論機能を評価するために設計された情報密度メトリックを備えた挑戦的なベンチマークであるHID-Chartを構築した。
複数のチャートベンチマークにおいて、Chart-FR1は、チャートの理解と推論において最先端のMLLMよりも優れていることを示した。
コードはhttps://github.com/phkhub/Chart-FR1.comから入手できる。
関連論文リスト
- ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - Chart-R1: Chain-of-Thought Supervision and Reinforcement for Advanced Chart Reasoner [13.465161900684432]
本稿では,グラフ領域の視覚言語モデルであるChart-R1を紹介する。
Chart-R1をサポートするために、我々はまず、高品質なステップバイステップチャート推論データを生成する新しいプログラムデータ技術を提案する。
次に、ステップバイステップのチェーン監視を行うChart-COTと、数値的に感度の高い強化微調整を行うChart-RFTの2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-07-21T11:22:17Z) - ChartSketcher: Reasoning with Multimodal Feedback and Reflection for Chart Understanding [18.67532755744138]
チャートの自動理解は、既存のマルチモーダルな大規模言語モデルに重大な課題をもたらす。
現在のステップバイステップ推論モデルは、主にチャート理解のためのテキストベースの論理的推論に焦点を当てている。
マルチモーダルフィードバック駆動のステップバイステップ推論手法であるChartSketcherを提案する。
論文 参考訳(メタデータ) (2025-05-25T10:21:29Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。
我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文 参考訳(メタデータ) (2025-03-13T20:13:39Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。