論文の概要: Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing
- arxiv url: http://arxiv.org/abs/2602.16455v1
- Date: Wed, 18 Feb 2026 13:40:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.602263
- Title: Visual Self-Refine: A Pixel-Guided Paradigm for Accurate Chart Parsing
- Title(参考訳): Visual Self-Refine: 正確なチャート解析のためのPixel-Guided Paradigm
- Authors: Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Jiaqi Wang, Dahua Lin,
- Abstract要約: 既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を視覚アンカーとして使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
- 参考スコア(独自算出の注目度): 76.2602505940467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities for reasoning and self-correction at the textual level, these strengths provide minimal benefits for complex tasks centered on visual perception, such as Chart Parsing. Existing models often struggle with visually dense charts, leading to errors like data omission, misalignment, and hallucination. Inspired by the human strategy of using a finger as a ``visual anchor'' to ensure accuracy when reading complex charts, we propose a new paradigm named Visual Self-Refine (VSR). The core idea of VSR is to enable a model to generate pixel-level localization outputs, visualize them, and then feed these visualizations back to itself, allowing it to intuitively inspect and correct its own potential visual perception errors. We instantiate the VSR paradigm in the domain of Chart Parsing by proposing ChartVSR. This model decomposes the parsing process into two stages: a Refine Stage, where it iteratively uses visual feedback to ensure the accuracy of all data points' Pixel-level Localizations, and a Decode Stage, where it uses these verified localizations as precise visual anchors to parse the final structured data. To address the limitations of existing benchmarks, we also construct ChartP-Bench, a new and highly challenging benchmark for chart parsing. Our work also highlights VSR as a general-purpose visual feedback mechanism, offering a promising new direction for enhancing accuracy on a wide range of vision-centric tasks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、テキストレベルでの推論と自己補正の顕著な能力を示す一方で、これらの強みは、チャートパーシングのような視覚的知覚を中心とした複雑なタスクに最小限の利点をもたらす。
既存のモデルは、しばしば視覚的に密集したチャートに苦しむため、データの欠落、修正ミス、幻覚などのエラーにつながる。
複雑なチャートを読む際の精度を確保するために指を「視覚アンカー」として使うという人間の戦略に触発され、視覚自己認識(VSR)と呼ばれる新しいパラダイムを提案する。
VSRの中核となる考え方は、モデルがピクセルレベルのローカライゼーション出力を生成し、それらを視覚化し、それらの視覚化を自身にフィードバックし、直感的にその潜在的な視覚的認識エラーを検査し修正できるようにすることである。
我々は、ChartVSRを提案することにより、チャートパーシングの領域におけるVSRパラダイムをインスタンス化する。
このモデルは、解析プロセスを2つのステージに分解する。Refine Stageは、すべてのデータポイントのPixelレベルのローカライゼーションの正確性を保証するために、視覚的フィードバックを反復的に使用する。
既存のベンチマークの限界に対処するため、グラフ解析のための新しい非常に難しいベンチマークであるChartP-Benchを構築した。
我々の研究は、VSRを汎用的な視覚フィードバック機構として強調し、幅広い視覚中心のタスクにおける精度を高めるための、有望な新しい方向を提供する。
関連論文リスト
- ChartAB: A Benchmark for Chart Grounding & Dense Alignment [17.16234793106]
視覚言語モデル(VLM)の包括的評価を提供する新しいChartAlign Benchmark(ChartAB)を導入する。
新たな2段階推論ワークフローを導入することで、ベンチマークは2つのチャートにまたがる要素/属性の調整と比較を行うVLMの機能をさらに評価することができる。
我々の評価分析は、チャート理解における認知バイアス、弱さ、頑健さ、幻覚に対する新たな洞察を明らかにする。
論文 参考訳(メタデータ) (2025-10-30T17:56:31Z) - CAPE: A CLIP-Aware Pointing Ensemble of Complementary Heatmap Cues for Embodied Reference Understanding [56.30142869506262]
身体的参照理解(Embodied Reference Understanding)は、シーンの人物が指し示すジェスチャーと言語の両方を通して参照しているオブジェクトを予測する。
本稿では,2重モデルフレームワークを提案し,一方のモデルが頭指先方向から学習し,他方のモデルが手指先方向から学習する。
我々は、ベンチマークYouRefItデータセットの広範な実験と分析を通じてアプローチを検証し、0.25IoU閾値で約4mAPの改善を実現した。
論文 参考訳(メタデータ) (2025-07-29T15:00:21Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - End-to-End Chart Summarization via Visual Chain-of-Thought in Vision-Language Models [0.0]
本稿では,チャート要約のためのEnd-to-End Visual Chain-of-Thought (V-CoT)を提案する。
本手法では,LVLMを直接トレーニングして,チャート画像の処理とテキスト要約をエンドツーエンドで生成する。
我々は、視覚的推論ステップを実行するためにLVLMを暗黙的に誘導する、微調整による視覚的連鎖機構を組み込んだ。
論文 参考訳(メタデータ) (2025-02-24T19:13:45Z) - Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。
$pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。
我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-04T23:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。