論文の概要: Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06828v1
- Date: Fri, 06 Mar 2026 19:43:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.184955
- Title: Step-Level Visual Grounding Faithfulness Predicts Out-of-Distribution Generalization in Long-Horizon Vision-Language Models
- Title(参考訳): 長距離ビジョンランゲージモデルにおける分布外一般化のステップレベル視覚接地忠実度予測
- Authors: Md Ashikur Rahman, Md Arifur Rahman, Niamul Hassan Samin, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin,
- Abstract要約: 時間的根拠に基づく信念を維持するモデルはより一般化されていることを示す。
我々はこれを長い地平線上での行動的忠実さとして定式化する。
時間的接地品質がロバスト性の主要な指標であることを示す。
- 参考スコア(独自算出の注目度): 0.7919969809015935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We uncover a behavioral law of long-horizon vision-language models: models that maintain temporally grounded beliefs generalize better. Standard benchmarks measure only final-answer accuracy, which obscures how models use visual information; a model can guess correctly while its step-by-step reasoning is entirely unanchored to the visual input. We formalize this as behavioral faithfulness over long horizons, an empirically measurable property that quantifies whether a model's intermediate reasoning remains consistent with the evolving visual state. Across eight models on three long-horizon benchmarks, we demonstrate that temporal grounding quality is a leading indicator of robustness: the Step Grounding Rate (SGR) predicts out-of-distribution retention with $r = 0.83$ (permutation test $p = 0.003$), a relationship that holds within capacity-matched models and cannot be explained by scale or in-distribution accuracy. Critically, grounding quality varies by up to 10.8 percentage points within parameter-matched 7B models despite similar accuracy, revealing it as an independent axis of model capability. Multiple robustness checks confirm the signal reflects genuine visual reliance: counterfactual traces drop SGR by 26--41 percentage points, cross-architecture verifiers agree at $ρ= 0.96$, random reasoning scores near chance ($\sim 18\%$), and the predictor remains strong even without explicit reasoning disclosure ($r = 0.78$).
- Abstract(参考訳): 我々は、時間的に根ざした信念を維持するモデルがより一般化する、長い水平視覚言語モデルの行動法則を明らかにする。
モデルでは、ステップバイステップの推論が視覚入力と完全に一致していない間、正確に推測することができる。
我々はこれを、モデルの中間的推論が進化する視覚状態と一致しているかどうかを定量的に測定可能な特性である、長い地平線上の行動的忠実性として定式化する。
ステップグラウンドングレート (SGR) は,キャパシティマッチングモデル内に保持し,スケールや分布内精度で説明できない関係である$r = 0.83$ (permutation test $p = 0.003$) で分布外保持を予測する。
臨界的には、同じ精度にもかかわらず、パラメータマッチングされた7Bモデルのグラウンド品質は最大10.8ポイントまで変化し、モデル能力の独立した軸として表される。
複数のロバスト性チェックは、信号が真の視覚的信頼を反映していることを確認する: 反ファクト的トレース SGR は26-41パーセント減少し、クロスアーキテクチャ検証器は$ρ= 0.96$に一致し、ランダムな推論スコア(\sim 18\%$)は、明示的な推論開示(r = 0.78$)なしでも強いままである。
関連論文リスト
- Scaling Laws for Moral Machine Judgment in Large Language Models [0.0]
Moral Machineフレームワークを用いて75の大規模言語モデル構成(0.27B-1000Bパラメータ)を評価する。
我々は、モデルサイズとして減少する人間の嗜好からの距離と、一貫した権力関係を観察する。
拡張された推論モデルはアライメントが大幅に向上し、この効果はより小さなモデルでより顕著である。
論文 参考訳(メタデータ) (2026-01-25T00:12:45Z) - When Small Models Are Right for Wrong Reasons: Process Verification for Trustworthy Agents [0.0]
小さな言語モデルからの正しい回答の50~69%は、根本的な欠陥のある推論を含んでいる。
本稿では,レイタ間合意を実質的に検証したプロセスベース計量であるReasoning Integrity Score(RIS)を紹介する。
メタ認知は十分なモデルキャパシティを伴わずに混乱を増幅するのに対し、RAGは外部のエビデンスに基礎を置き、エラーを7.6%削減する。
論文 参考訳(メタデータ) (2026-01-01T23:54:15Z) - Measuring Language Model Hallucinations Through Distributional Correctness [7.106986689736826]
この問題を解決するために,新しい評価基準である分布補正スコア(DCS)を導入した。
DCSは、誤った回答における有害な過信と、棄権によって表される不確実性を区別し、解釈可能なデフォルト範囲でスコアを提供する。
DCSは、推測よりも真に不確実性を表現するモデルにインセンティブを与える、よりニュアンスで整列した評価パラダイムを提供する。
論文 参考訳(メタデータ) (2025-10-05T17:50:42Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Self-Consistency of Large Language Models under Ambiguity [4.141513298907867]
本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
論文 参考訳(メタデータ) (2023-10-20T11:57:56Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。