論文の概要: ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution
- arxiv url: http://arxiv.org/abs/2602.15769v1
- Date: Tue, 17 Feb 2026 18:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.150378
- Title: ViTaB-A: Evaluating Multimodal Large Language Models on Visual Table Attribution
- Title(参考訳): ViTaB-A:ビジュアルテーブル属性に基づくマルチモーダル大言語モデルの評価
- Authors: Yahia Alqurnawi, Preetom Biswas, Anmol Rao, Tejas Anvekar, Chitta Baral, Vivek Gupta,
- Abstract要約: マルチモーダル大言語モデル (mLLMs) は構造化データの疑問に答えるためにしばしば用いられる。
モデルが解答をサポートする特定の行や列を指し示す能力である構造化データ属性/引用について検討する。
- 参考スコア(独自算出の注目度): 37.049064455196486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (mLLMs) are often used to answer questions in structured data such as tables in Markdown, JSON, and images. While these models can often give correct answers, users also need to know where those answers come from. In this work, we study structured data attribution/citation, which is the ability of the models to point to the specific rows and columns that support an answer. We evaluate several mLLMs across different table formats and prompting strategies. Our results show a clear gap between question answering and evidence attribution. Although question answering accuracy remains moderate, attribution accuracy is much lower, near random for JSON inputs, across all models. We also find that models are more reliable at citing rows than columns, and struggle more with textual formats than images. Finally, we observe notable differences across model families. Overall, our findings show that current mLLMs are unreliable at providing fine-grained, trustworthy attribution for structured data, which limits their usage in applications requiring transparency and traceability.
- Abstract(参考訳): マルチモーダル大言語モデル(mLLM)は、Markdown、JSON、イメージのテーブルなどの構造化データの質問に答えるためによく使われる。
これらのモデルは正しい答えを与えることが多いが、ユーザーはその答えがどこから来たのかを知る必要がある。
本研究では,モデルが解答をサポートする特定の行や列を指し示すことができる構造的データ属性/引用について検討する。
我々は,複数のmLLMを異なるテーブル形式で評価し,戦略を推し進める。
以上の結果から,質問応答と証拠帰属との間に明確なギャップがあることが示唆された。
質問応答精度は依然として適度であるが、すべてのモデルにおいてJSON入力に対してほぼランダムな帰属精度ははるかに低い。
また、モデルは列よりも行を引用する方が信頼性が高く、画像よりもテキスト形式に苦戦していることもわかりました。
最後に、モデル家族間での顕著な差異を観察する。
全体として、現在のmLLMは、構造化データに対してきめ細かな信頼性の高い属性を提供するには信頼性が低く、透明性とトレーサビリティを必要とするアプリケーションでは使用が制限されている。
関連論文リスト
- Don't Always Pick the Highest-Performing Model: An Information Theoretic View of LLM Ensemble Selection [8.266188814122605]
大規模言語モデル(LLM)は、全体的な信頼性と堅牢性を改善するために組み立てられることが多いが、実際には強い相関関係にある。
我々は、真のラベルと選択されたモデルの予測との相互情報の最大化として、予算化されたアンサンブル選択を定式化する。
そこで本研究では,データから直接必要な情報条件を推定する,単純な欲求相互情報選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-08T15:05:22Z) - TRivia: Self-supervised Fine-tuning of Vision-Language Models for Table Recognition [54.85932472676512]
テーブル認識(TR)は、テーブルイメージをHTMLやマークダウンなどの半構造化表現に変換することを目的としている。
我々は、事前学習された視覚言語モデルで、ラベルのないテーブルイメージから直接TRを学習できる自己教師型微調整手法であるTRiviaを紹介する。
我々は,既存のシステムを超越した,オープンソースでコンパクトで最先端のTRモデルであるTRivia-3Bを提案する。
論文 参考訳(メタデータ) (2025-12-01T03:49:00Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - The Mighty ToRR: A Benchmark for Table Reasoning and Robustness [45.420943398134845]
ToRRはテーブル推論とロバストネスのベンチマークであり、テーブル関連のタスクにおけるモデル性能とロバストネスを測定している。
本稿では,ToRR上での先行モデルの結果を総合的に分析するとともに,リーダーボードを提案する。
論文 参考訳(メタデータ) (2025-02-26T18:56:38Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Changing Answer Order Can Decrease MMLU Accuracy [18.774650080306944]
広範に使われている複数選択質問応答データセットMMLUにおける精度測定の堅牢性について検討する。
回答ラベルの内容をシャッフルすると、すべてのモデルがMMLUの精度を低下させるが、全てのモデルが等しく敏感であるわけではない。
論文 参考訳(メタデータ) (2024-06-27T18:21:32Z) - CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias [7.28980829208179]
言語モデル(CALM)の包括的評価は、普遍的に関連する2種類の社会デマログラフバイアス、性別、人種の頑健な測定である。
実験により,CALMのバイアススコアは,テンプレートの摂動に対する従来のバイアス測定よりも頑健で,はるかに感度が低いことが示された。
論文 参考訳(メタデータ) (2023-08-24T03:53:55Z) - Getting MoRE out of Mixture of Language Model Reasoning Experts [71.61176122960464]
多様な特殊言語モデルを組み込んだMixture-of-Reasoning-Experts (MoRE) フレームワークを提案する。
実例,マルチホップ,数学的,コモンセンス推論など,さまざまな推論カテゴリに最適化されたプロンプトを備えたバックボーン言語モデルを特化する。
人間の研究では、専門家による予測と回答の選択プロセスが、アノテータがシステムの出力を信頼するタイミングをより正確に調整するのに役立ちます。
論文 参考訳(メタデータ) (2023-05-24T02:00:51Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。