論文の概要: Encoded but Not Routed: Explaining the Table-Chart Gap in Scientific Claim Verification
- arxiv url: http://arxiv.org/abs/2606.01679v1
- Date: Mon, 01 Jun 2026 04:39:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.986777
- Title: Encoded but Not Routed: Explaining the Table-Chart Gap in Scientific Claim Verification
- Title(参考訳): 暗号化されてはいない: 科学的証拠検証におけるテーブルチャートギャップの解説
- Authors: Sunisth Kumar, Xanh Ho, Tim Schopf, Andre Greiner-Petter, Florian Boudin, Akiko Aizawa,
- Abstract要約: モデルがチャートから情報を取り出すのに失敗するのか、それともそれを抽出するのに、予測を作るのに失敗するのかを考察する。
本研究では,表と表のエビデンス上の3つのオープンウェイトVLMの層次線形探索とアテンション解析を行い,その基礎となるデータについて考察する。
チャート情報はモデルの中間表現にエンコードされているが、予測位置には達していない。
これらの発見は、テーブルチャートのギャップを、予測時ではなく予測時に、どのように符号化された視覚情報がルーティングされるかの失敗として再構成した。
- 参考スコア(独自算出の注目度): 18.027167868572786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal LLMs are increasingly used to assist scientific peer review, where a core requirement is verifying whether claims in a paper are supported by its evidence. Prior work has shown that models perform substantially better at this task when the evidence is a table than when it is a chart of the same underlying data. This raises the question of whether models fail to extract information from charts, or do they extract it but fail to use it when forming their prediction? We study this question through layer-wise linear probing and attention analysis on three open-weight VLMs over table and chart evidence, representing the same underlying data. We find consistent evidence for the latter. Chart information is encoded in the models' intermediate representations but does not reach the prediction position, a gap that is absent for tables and holds across all conditions tested. Attention analysis further reveals that this disconnect takes two architecturally distinct forms across model families. These findings reframe the table-chart gap as a failure of how encoded visual information is routed at prediction time, rather than a failure of encoding itself.
- Abstract(参考訳): マルチモーダル LLM は、論文の主張が証拠によって裏付けられているかどうかを検証する中核的な要件である科学的なピアレビューを支援するために、ますます使われている。
以前の研究では、証拠がテーブルである場合、同じ基礎データのチャートである場合よりも、このタスクにおいて、モデルの方がはるかに優れていることが示されている。
このことは、モデルがチャートから情報を取り出すのに失敗するのか、それとも、それを抽出するのに、予測を作るのに失敗するのかという疑問を提起する。
本研究では,表と表のエビデンス上の3つのオープンウェイトVLMについて,層単位での線形探索とアテンション解析を行い,その基礎となるデータについて考察する。
我々は後者について一貫した証拠を見つける。
チャート情報はモデルの中間表現にエンコードされるが、予測位置には届かない。
注意分析により、この切断はモデルファミリにまたがって2つのアーキテクチャ的に異なる形態をとることが明らかになった。
これらの発見は、表と表のギャップを、符号化自体の失敗ではなく、予測時に、どのように符号化された視覚情報がルーティングされるかの失敗として再考した。
関連論文リスト
- Revisiting Metafeatures to Explain Model Differences on Tabular Data [12.445205798094412]
TabArenaベンチマークの結果を用いて、データセットレベルのパフォーマンスギャップを分析し、それらをモデルに依存しないデータセット記述子に関連付ける。
ニューラルネットワーク対木間隙の場合、メタフィーチャーが偽発見制御を生き残ることはなく、一方のアソシエーションは堅牢であるが、一方のアソシエーションはLeft-one-data-out予測でテストしても一般化しない。
論文 参考訳(メタデータ) (2026-05-27T12:50:22Z) - DRAGON: A Benchmark for Evidence-Grounded Visual Reasoning over Diagrams [54.39165467997251]
ダイアグラムにおけるエビデンスグラウンドの視覚的推論を評価するためのベンチマークであるDRAGONを紹介する。
ダイアグラム、質問、そして正しい答えが与えられた場合、モデルは答えを正当化するために必要な視覚的要素に対応する境界ボックスを予測する必要がある。
DRAGONデータセットには、6つの図QAデータセットから収集された11,664の注釈付き質問インスタンスが含まれている。
論文 参考訳(メタデータ) (2026-04-28T05:24:05Z) - ChartAttack: Testing the Vulnerability of LLMs to Malicious Prompting in Chart Generation [51.49421299447412]
マルチモーダルな大言語モデル(MLLM)は、データテーブルからのチャート生成を自動化するためにますます使われている。
ChartAttackは,MLLMを誤用して大規模にミスリードチャートを生成する方法を評価するフレームワークである。
論文 参考訳(メタデータ) (2026-01-19T11:57:48Z) - Beyond Linearization: Attributed Table Graphs for Table Reasoning [29.473235136449134]
テーブルを分散表グラフ(ATG)として表す学習自由モデルを提案する。
TABGRは最新モデルの精度を最大9.7%向上させる。
論文 参考訳(メタデータ) (2026-01-13T11:14:43Z) - An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions [8.023379679609151]
大規模言語モデル(LLM)は、他の標準表現の表計算データが意味的および構造的歪みを受けると失敗する。
システムプロンプトを通じて明示的な事前情報を提供する場合のみ、モデルは推論戦略を部分的に調整し、いくつかの歪みを修正する。
論文 参考訳(メタデータ) (2026-01-08T15:10:32Z) - Is this chart lying to me? Automating the detection of misleading visualizations [74.26574031329689]
誤解を招くビジュアライゼーションは、ソーシャルメディアやウェブ上での誤報の強力な原動力だ。
Misvizは、12種類のミスリーダーで注釈付けされた2,604の現実世界の視覚化のベンチマークである。
Misviz-synthは、Matplotlibを使って生成され、実世界のデータテーブルに基づいて81,814の可視化データからなる合成データセットである。
論文 参考訳(メタデータ) (2025-08-29T14:36:45Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Do LVLMs Understand Charts? Analyzing and Correcting Factual Errors in Chart Captioning [90.13978453378768]
生成したチャートキャプションに事実誤りを包括的に分類する。
大規模な人間のアノテーションの取り組みは、様々なチャートキャプションモデルによって作られたキャプションのエラーパターンと頻度に関する洞察を提供する。
分析の結果,GPT-4Vを含む最先端モデルでさえ,事実不正確なキャプションを頻繁に生成していることが判明した。
論文 参考訳(メタデータ) (2023-12-15T19:16:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。