論文の概要: V-FAT: Benchmarking Visual Fidelity Against Text-bias
- arxiv url: http://arxiv.org/abs/2601.04897v1
- Date: Thu, 08 Jan 2026 12:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.207103
- Title: V-FAT: Benchmarking Visual Fidelity Against Text-bias
- Title(参考訳): V-FAT: テキストバイアスに対する視力のベンチマーク
- Authors: Ziteng Wang, Yujie He, Guanliang Li, Siqi Yang, Jiaqi Xiong, Songxiang Liu,
- Abstract要約: 視覚認知と言語的先行の緊張について検討する。
V-FAT(Visual Fidelity Against Text-bias)は、6つのセマンティックドメインにわたる4,026のVQAインスタンスからなる診断ベンチマークである。
12個のフロンティアMLLMを評価した結果,既存のベンチマークではモデルが優れているが,高い言語的優位性の下では視覚的崩壊が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 10.716447149075357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have demonstrated impressive performance on standard visual reasoning benchmarks. However, there is growing concern that these models rely excessively on linguistic shortcuts rather than genuine visual grounding, a phenomenon we term Text Bias. In this paper, we investigate the fundamental tension between visual perception and linguistic priors. We decouple the sources of this bias into two dimensions: Internal Corpus Bias, stemming from statistical correlations in pretraining, and External Instruction Bias, arising from the alignment-induced tendency toward sycophancy. To quantify this effect, we introduce V-FAT (Visual Fidelity Against Text-bias), a diagnostic benchmark comprising 4,026 VQA instances across six semantic domains. V-FAT employs a Three-Level Evaluation Framework that systematically increases the conflict between visual evidence and textual information: (L1) internal bias from atypical images, (L2) external bias from misleading instructions, and (L3) synergistic bias where both coincide. We introduce the Visual Robustness Score (VRS), a metric designed to penalize "lucky" linguistic guesses and reward true visual fidelity. Our evaluation of 12 frontier MLLMs reveals that while models excel in existing benchmarks, they experience significant visual collapse under high linguistic dominance.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、標準的な視覚的推論ベンチマークで顕著な性能を示している。
しかし、これらのモデルが真の視覚的接地よりも言語的ショートカットに過度に依存するのではないかという懸念が高まっている。
本稿では,視覚知覚と言語的先行の基本的な緊張関係について検討する。
我々は、このバイアスの源泉を、事前訓練における統計的相関から派生した内因性コーパスバイアスと、アライメントによって引き起こされるサイコファンシーへの傾向から生じる外因性インストラクションバイアスの2つの次元に分けた。
この効果を定量化するために、6つのセマンティックドメインにわたる4,026のVQAインスタンスからなる診断ベンチマークであるV-FAT(Visual Fidelity Against Text-bias)を導入する。
V-FATは、視覚的エビデンスとテキスト情報の衝突を体系的に増加させる3レベル評価フレームワークを採用している: (L1) 非定型画像からの内部バイアス、(L2)誤解を招く命令からの外部バイアス、(L3)両者が一致する相乗的バイアス。
本稿では,視覚的ロバストネススコア(Visual Robustness Score,VRS)について紹介する。
12個のフロンティアMLLMを評価した結果,既存のベンチマークではモデルが優れているが,高い言語的優位性の下では視覚的崩壊が顕著であることがわかった。
関連論文リスト
- Seeing to Act, Prompting to Specify: A Bayesian Factorization of Vision Language Action Policy [59.44168425139687]
BayesVLA(ベイズVLA)は、前もってポリシーを視覚的アクションに分解し、ルック・トゥ・アクティベーションと言語条件付き可能性をサポートし、即時特定を可能にするベイズ因子化である。
実験は、既存の方法と比較して、目に見えない命令、オブジェクト、環境に対して優れた一般化を示す。
論文 参考訳(メタデータ) (2025-12-12T01:59:23Z) - BLINK-Twice: You see, but do you observe? A Reasoning Benchmark on Visual Perception [67.89135437537179]
我々は視覚中心の推論ベンチマークであるBLINK-Twiceを紹介した。
外部の知識に頼るのではなく、私たちのタスクは視覚的コンテンツのみから推論するモデルを必要とします。
事前の知覚ベンチマークと比較すると、浅い知覚を超越し、きめ細かい観察と分析的推論を必要とする。
論文 参考訳(メタデータ) (2025-10-10T13:14:13Z) - Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection [49.26064449816502]
本研究では,テキスト・視覚バイアスと共起バイアスに対処するために,グラディエントベースのインフルエンス・アウェア制約付きデコーディング(GACD)手法を提案する。
GACDは幻覚を効果的に低減し、MLLM出力の視覚的接地を改善する。
論文 参考訳(メタデータ) (2025-09-03T08:13:52Z) - A Closer Look at Bias and Chain-of-Thought Faithfulness of Large (Vision) Language Models [58.32070787537946]
思考の連鎖(CoT)推論は、大きな言語モデルの性能を高める。
大規模視覚言語モデルにおけるCoT忠実度に関する最初の総合的研究について述べる。
論文 参考訳(メタデータ) (2025-05-29T18:55:05Z) - Words or Vision: Do Vision-Language Models Have Blind Faith in Text? [34.88114876390461]
VLM(Vision-Language Models)は、視覚中心のタスクに対する視覚情報とテキスト情報の統合に優れる。
視覚中心設定における視覚データや様々なテキスト入力に直面するVLMのモダリティ嗜好について検討する。
不整合が発生した場合、VLMは視覚的データよりもテキストデータを不均等に信頼する。
論文 参考訳(メタデータ) (2025-03-04T02:21:07Z) - Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [18.625071242029936]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。
本稿では,LLMにおける明示的偏見と暗黙的偏見を調査・比較するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2025-01-04T14:08:52Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。