論文の概要: ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement
- arxiv url: http://arxiv.org/abs/2509.13282v1
- Date: Tue, 16 Sep 2025 17:35:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.209669
- Title: ChartGaze: Enhancing Chart Understanding in LVLMs with Eye-Tracking Guided Attention Refinement
- Title(参考訳): ChartGaze:Eye-Tracking Guided Attention RefinementによるLVLMにおけるチャート理解の強化
- Authors: Ali Salamatian, Amirhossein Abaskohi, Wan-Cyuan Fan, Mir Rayat Imtiaz Hossain, Leonid Sigal, Giuseppe Carenini,
- Abstract要約: 我々は、チャート推論タスク中に人間の視線パターンをキャプチャする新しいアイトラッキングデータセットを提案する。
LVLMはしばしば人間の視線から分岐し、解釈可能性と精度が低下する。
これを解決するために,画像テキストの注意と人間の修正を一致させる視線誘導型注意改善法を提案する。
- 参考スコア(独自算出の注目度): 31.201809772162587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Charts are a crucial visual medium for communicating and representing information. While Large Vision-Language Models (LVLMs) have made progress on chart question answering (CQA), the task remains challenging, particularly when models attend to irrelevant regions of the chart. In this work, we present ChartGaze, a new eye-tracking dataset that captures human gaze patterns during chart reasoning tasks. Through a systematic comparison of human and model attention, we find that LVLMs often diverge from human gaze, leading to reduced interpretability and accuracy. To address this, we propose a gaze-guided attention refinement that aligns image-text attention with human fixations. Our approach improves both answer accuracy and attention alignment, yielding gains of up to 2.56 percentage points across multiple models. These results demonstrate the promise of incorporating human gaze to enhance both the reasoning quality and interpretability of chart-focused LVLMs.
- Abstract(参考訳): チャートは情報を伝達し、表現するための重要なビジュアルメディアである。
LVLM(Large Vision-Language Models)は、チャート質問応答(CQA)を進歩させてきたが、特にチャートの無関係な領域にモデルが参加する場合、その課題は困難なままである。
本稿では、チャート推論タスク中の人間の視線パターンをキャプチャする新しいアイトラッキングデータセットであるChartGazeを紹介する。
人間とモデルの注意を体系的に比較することで、LVLMは人間の視線からしばしば分岐し、解釈可能性と精度が低下することがわかった。
これを解決するために,画像テキストの注意と人間の修正を一致させる視線誘導型注意改善法を提案する。
提案手法は解答精度と注意アライメントを両立させ,複数のモデルに対して最大2.56ポイントの利得を得る。
これらの結果は,LVLMの推論品質と解釈可能性を高めるために,人間の視線を取り入れることの可能性を実証している。
関連論文リスト
- RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。
さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文 参考訳(メタデータ) (2025-03-06T05:08:40Z) - Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - CHARTOM: A Visual Theory-of-Mind Benchmark for LLMs on Misleading Charts [26.477627174115806]
CHARTOMはマルチモーダルな大規模言語モデルの能力を評価するために設計されたビジュアル・オブ・ミンド・ベンチマークである。
CHARTOMは、慎重に設計されたチャートと関連する質問で構成されており、言語モデルがチャートの事実を正しく理解するだけでなく(FACTの質問)、チャートが人間の読者に誤解をもたらすかどうかを判断する(MINDの質問)。
我々は,人間のパフォーマンスの校正や,人間ミスリーディングネス指数(Human Misleadingness Index)と呼ばれるMIND基底真理の推定を含むベンチマークの構築について詳述する。
論文 参考訳(メタデータ) (2024-08-26T17:04:23Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs [11.19928977117624]
自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。
近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。
これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。
本稿では,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を,チャート理解と推論のタスクに対して行った。
論文 参考訳(メタデータ) (2024-06-01T01:43:30Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - Enhanced Chart Understanding in Vision and Language Task via Cross-modal
Pre-training on Plot Table Pairs [71.55796212450055]
本稿では、プロットテーブルペア上でのクロスモーダル事前学習を通じて、チャート画像からテーブル情報を解釈する方法を学ぶV+LモデルであるChartT5を紹介する。
具体的には,MHP(Masked Header Prediction)とMVP(Masked Value Prediction)の2つの新しい事前学習目標を提案する。
論文 参考訳(メタデータ) (2023-05-29T22:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。