論文の概要: Predicting When to Trust Vision-Language Models for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.11644v1
- Date: Wed, 14 Jan 2026 22:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.245903
- Title: Predicting When to Trust Vision-Language Models for Spatial Reasoning
- Title(参考訳): 空間推論のための視覚言語モデル信頼の時期予測
- Authors: Muhammad Imran, Yugyung Lee,
- Abstract要約: VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる印象的な機能を示すが、体系的な空間的推論の失敗を示す。
独立な幾何学的検証によってVLM予測を検証可能な視覚に基づく信頼度推定フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.984679075401059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) demonstrate impressive capabilities across multimodal tasks, yet exhibit systematic spatial reasoning failures, achieving only 49% (CLIP) to 54% (BLIP-2) accuracy on basic directional relationships. For safe deployment in robotics and autonomous systems, we need to predict when to trust VLM spatial predictions rather than accepting all outputs. We propose a vision-based confidence estimation framework that validates VLM predictions through independent geometric verification using object detection. Unlike text-based approaches relying on self-assessment, our method fuses four signals via gradient boosting: geometric alignment between VLM claims and coordinates, spatial ambiguity from overlap, detection quality, and VLM internal uncertainty. We achieve 0.674 AUROC on BLIP-2 (34.0% improvement over text-based baselines) and 0.583 AUROC on CLIP (16.1% improvement), generalizing across generative and classification architectures. Our framework enables selective prediction: at 60% target accuracy, we achieve 61.9% coverage versus 27.6% baseline (2.2x improvement) on BLIP-2. Feature analysis reveals vision-based signals contribute 87.4% of model importance versus 12.7% from VLM confidence, validating that external geometric verification outperforms self-assessment. We demonstrate reliable scene graph construction where confidence-based pruning improves precision from 52.1% to 78.3% while retaining 68.2% of edges.
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる印象的な機能を示すが、体系的な空間的推論の失敗を示し、基本的な方向関係において49%(CLIP)から54%(BLIP-2)の精度しか達成していない。
ロボットや自律システムに安全な配置を行うためには、VLMの空間予測を、すべての出力を受け入れるのではなく、いつ信頼するかを予測する必要がある。
本稿では,物体検出を用いた独立な幾何検証によるVLM予測の検証を行う,視覚に基づく信頼度推定フレームワークを提案する。
自己評価に頼ったテキストベースアプローチとは違い,本手法では,VLMクレームと座標間の幾何的アライメント,重複からの空間的曖昧さ,検出品質,VLM内部の不確実性といった4つの信号の融合を行う。
BLIP-2では0.674 AUROC(テキストベースベースラインよりも34.0%改善)、CLIPでは0.583 AUROC(16.1%改善)を達成し、生成アーキテクチャや分類アーキテクチャで一般化した。
我々のフレームワークは選択的予測を可能にする:60%の精度で61.9%のカバレッジを達成するが、BLIP-2では27.6%のベースライン(2.2倍の改善)が達成される。
特徴分析により、視覚に基づく信号はモデルの重要性の87.4%、VLMの信頼性の12.7%に寄与し、外部幾何学的検証が自己評価より優れていることが証明された。
信頼性に基づくプルーニングにより,エッジの68.2%を維持しつつ,52.1%から78.3%の精度向上を実現した,信頼性の高いシーングラフの構築を実証する。
関連論文リスト
- Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Balanced Multi-Task Attention for Satellite Image Classification: A Systematic Approach to Achieving 97.23% Accuracy on EuroSAT Without Pre-Training [0.0]
本研究は、衛星土地利用分類のための独自の畳み込みニューラルネットワークアーキテクチャを体系的に研究する。
事前訓練されたモデルに依存することなく、EuroSATデータセット上で97.23%のテスト精度を達成する。
我々の手法は、外部データを必要としない微調整されたResNet-50(98.57%)の1.34%で性能を達成する。
論文 参考訳(メタデータ) (2025-10-17T10:59:24Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - To Trust Or Not To Trust Your Vision-Language Model's Prediction [32.26134619728882]
我々は,VLMの予測をいつ信頼できるかを推定する課題に対処する,トレーニング不要なフレームワークTrustVLMを紹介した。
観測されたVLMのモダリティギャップに触発されて,この空間を利用して誤分類検出を改善する新しい信頼度スコアリング関数を提案する。
4つのアーキテクチャと2つのVLMを使用して、17の多様なデータセットにまたがるアプローチを厳格に評価し、最先端のパフォーマンスを実証します。
論文 参考訳(メタデータ) (2025-05-29T17:59:01Z) - Localization Meets Uncertainty: Uncertainty-Aware Multi-Modal Localization [5.414146574747448]
本研究では、信頼できない3DoFのポーズ予測をフィルタリングするパーセンタイルに基づく拒絶戦略を導入する。
実験結果から, より厳密な不確実性しきい値を適用することにより, ポーズ精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-04-10T12:07:24Z) - Llamas Know What GPTs Don't Show: Surrogate Models for Confidence
Estimation [70.27452774899189]
大規模言語モデル(LLM)は、ユーザを誤解させるのではなく、不正な例に対して低い信頼を示さなければならない。
2023年11月現在、最先端のLLMはこれらの確率へのアクセスを提供していない。
言語的信頼度と代理モデル確率を構成する最良の方法は、12データセットすべてに対して最先端の信頼度推定を与える。
論文 参考訳(メタデータ) (2023-11-15T11:27:44Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。