論文の概要: Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2604.18000v1
- Date: Mon, 20 Apr 2026 09:25:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.786675
- Title: Unmasking the Illusion of Embodied Reasoning in Vision-Language-Action Models
- Title(参考訳): 視覚・言語・行動モデルにおける身体的推論のイリュージョンを解き明かす
- Authors: Haiweng Xu, Sipeng Zheng, Hao Luo, Wanpeng Zhang, Ziheng Xi, Zongqing Lu,
- Abstract要約: 最近のVision-Language-Action(VLA)モデルでは、標準的なロボットベンチマークで顕著な成功率が報告されている。
最近の証拠は、標準ベンチマークの成功と真の具体的推論の体系的な不一致を示唆している。
本稿では,ロボットポリシーにおける真の身体的推論の診断ベンチマークであるBeTTERを紹介する。
- 参考スコア(独自算出の注目度): 28.981226513192535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent Vision-Language-Action (VLA) models report impressive success rates on standard robotic benchmarks, fueling optimism about general-purpose physical intelligence. However, recent evidence suggests a systematic misalignment between standard benchmark success and true embodied reasoning, raising the question of whether these high scores reflect genuine cognitive capability. To address this gap, we introduce BeTTER, a diagnostic Benchmark for Testing True Embodied Reasoning in robotic policies. BeTTER applies targeted causal interventions (e.g., spatial layout shifts, temporal extrapolation) while enforcing kinematic isolation to explicitly decouple high-level reasoning failures from low-level execution limits. Through systematic evaluation, we reveal that state-of-the-art VLAs catastrophically fail in dynamic scenarios, exhibiting severe lexical-kinematic shortcuts, behavioral inertia, and semantic feature collapse. Crucially, our mechanistic analysis traces these symptoms to fundamental architectural bottlenecks - such as capacity compression and myopic downsampling - which systematically degrade the model's foundational semantic representation. We demonstrate that highly static evaluation protocols effectively mask this degradation by allowing optimization to overfit to sensorimotor priors. Supported by real-world robotic validation, our findings confirm that this representational breakdown is not a simulation artifact, highlighting the critical need for future VLA paradigms to resolve the structural tension between high-frequency control and high-level reasoning.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルでは、標準的なロボットベンチマークで顕著な成功率を報告し、汎用物理インテリジェンスに関する楽観性を刺激している。
しかし、近年の証拠は、標準ベンチマークの成功と真の具体的推論の体系的な相違を示唆し、これらの高いスコアが真の認知能力を反映しているかどうかという疑問を提起している。
このギャップに対処するため、ロボットポリシーにおけるTrue Embodied Reasoningの診断ベンチマークであるBeTTERを紹介した。
BeTTERは、ターゲットとなる因果的介入(例えば、空間的レイアウトシフト、時間的外挿)を適用し、低レベルの実行制限から高レベルの推論障害を明示的に分離するために運動的隔離を強制する。
系統的な評価により, 最先端のVLAが動的シナリオで破滅的に失敗し, 重度の語彙的短命, 行動慣性, 意味的特徴の崩壊を呈することが明らかとなった。
重要なことに、我々の力学分析はこれらの症状を、キャパシティ圧縮やミオピックダウンサンプリングといった基本的なアーキテクチャ上のボトルネックに辿り着き、モデルの基本的セマンティック表現を体系的に劣化させます。
センサモレータの事前処理に最適化をオーバーフィットさせることにより, この劣化を効果的に抑制できることを実証する。
実世界のロボットによる検証によって,この表現分解はシミュレーションの成果ではないことが確認され,高頻度制御と高レベル推論の間の構造的緊張を解消するための将来的なVLAパラダイムに対する重要な必要性が浮き彫りにされた。
関連論文リスト
- Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - Advancing Analytic Class-Incremental Learning through Vision-Language Calibration [6.871141687303144]
事前学習モデル(PTM)を用いたクラスインクリメンタルラーニング(CIL)は、効率的な適応と長期的安定性の間に重要なトレードオフに直面している。
我々は,2段階の視覚言語キャリブレーション戦略によって解析的CILを向上する新しいデュアルブランチフレームワークである textbfVILA を提案する。
我々のフレームワークは解析学習の単純さと高忠実度予測を調和させる。
論文 参考訳(メタデータ) (2026-02-14T08:32:51Z) - Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。
本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。
また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文 参考訳(メタデータ) (2026-02-04T13:51:15Z) - Unified Embodied VLM Reasoning with Robotic Action via Autoregressive Discretized Pre-training [16.28589738595606]
汎用ロボットシステムは広範な一般化と高精度な行動実行を実現する必要がある。
Embodied Reasoning Intelligence Quotient (ERIQ)は,ロボット操作における大規模実施推論ベンチマークである。
本研究では、連続制御を離散シーケンスに変換するフローマッチングベースのアクショントークンであるFACTを提案する。
論文 参考訳(メタデータ) (2025-12-30T10:18:42Z) - Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding [54.05243949024302]
既存の堅牢なMLLMは、視覚エンコーダの一般化にのみ焦点をあてた暗黙のトレーニング/適応に依存している。
本稿では,構造的推論連鎖による視覚的劣化を明示的にモデル化する新しいフレームワークであるRobust-R1を提案する。
提案手法は, (i) 劣化を考慮した推論基盤の微調整, (ii) 劣化パラメータを正確に知覚するための報酬駆動アライメント, (iii) 劣化強度に適応した動的推論深度スケーリングの2つを統合した。
論文 参考訳(メタデータ) (2025-12-19T12:56:17Z) - LIBERO-Plus: In-depth Robustness Analysis of Vision-Language-Action Models [49.92148175114169]
制御された摂動を7次元にわたって導入することにより,系統的な脆弱性解析を行う。
モデルは、カメラの視点やロボットの初期状態を含む摂動要因に対して極端に敏感である。
驚くべきことに、モデルは言語の変化にほとんど敏感であり、さらなる実験により、モデルは言語命令を完全に無視する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-10-15T14:51:36Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。