論文の概要: Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model
- arxiv url: http://arxiv.org/abs/2603.18342v1
- Date: Wed, 18 Mar 2026 22:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.875243
- Title: Shifting Uncertainty to Critical Moments: Towards Reliable Uncertainty Quantification for VLA Model
- Title(参考訳): 臨界モーメントへの不確かさのシフト--VLAモデルにおける信頼性不確かさの定量化に向けて
- Authors: Yanchuan Tang, Taowen Wang, Yuefei Chen, Boxuan Zhang, Qiang Guan, Ruixiang Tang,
- Abstract要約: 本稿では,ロールアウトの成功と失敗を予測するための統一的不確実性定量化手法を提案する。
本手法は, 故障予測精度を大幅に向上し, 故障検出のための信頼性の高い信号を得る。
- 参考スコア(独自算出の注目度): 10.781664119473966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models enable general-purpose robotic policies by mapping visual observations and language instructions to low-level actions, but they often lack reliable introspection. A common practice is to compute a token-level uncertainty signal and take its mean over a rollout. However, mean aggregation can dilute short-lived but safety-critical uncertainty spikes in continuous control. In particular, successful rollouts may contain localized high-entropy segments due to benign noise or non-critical micro-adjustments, while failure rollouts can appear low-entropy for most timesteps and only exhibit brief spikes near the onset of failure. We propose a unified uncertainty quantification approach for predicting rollout success versus failure that (1) uses max-based sliding window pooling to preserve transient risk signals, (2) applies motion-aware stability weighting to emphasize high-frequency action oscillations associated with unstable behaviors, and (3) performs DoF-adaptive calibration via Bayesian Optimization to prioritize kinematically critical axes. Experiments on the LIBERO benchmark show that our method substantially improves failure prediction accuracy and yields more reliable signals for failure detection, which can support downstream human-in-the-loop interventions.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、視覚的な観察と言語命令を低レベルのアクションにマッピングすることで、汎用的なロボットポリシーを可能にするが、信頼性のあるイントロスペクションを欠くことが多い。
一般的なプラクティスは、トークンレベルの不確実性信号を計算し、その平均値をロールアウトすることです。
しかし、アグリゲーションの平均は、持続的な制御において短命だが安全に重要な不確実なスパイクを減らしうる。
特に、成功しているロールアウトは、良質なノイズや非臨界マイクロ調整による局所的な高エントロピーセグメントを含む可能性があるが、障害のロールアウトはほとんどの時間ステップで低エントロピーを示すことができ、失敗の開始付近で短いスパイクしか示さない。
本研究では,(1)過渡的リスク信号の保存に最大ベースのスライディングウィンドウプーリングを用い,(2)不安定な動作に関連する高周波動作の発振を強調するために動き認識の安定性重み付けを適用し,(3)ベイズ最適化によるDoF適応キャリブレーションを行い,キネマティッククリティカルな軸の優先順位付けを行う,という,ロールアウト成功と障害の予測のための統一的不確実性定量化手法を提案する。
LIBEROベンチマーク実験により,本手法は故障予測精度を大幅に向上し,より信頼性の高い故障検出信号が得られた。
関連論文リスト
- Gradients Must Earn Their Influence: Unifying SFT with Generalized Entropic Objectives [22.29000001610794]
Supervised Fine-Tuning (SFT) の標準的な負の対数構造は、均一なトークンレベルの重み付けを適用する。
この剛性は2重の障害モードを生成する: (i)低確率目標を過度に強調することは、ノイズの監督の勾配を増幅し、頑健な事前を妨害し、 (ii)一様重み付けは、モデルが既に自信を持っているときに弱いシャープニングを与える。
既存の方法は可塑性の解決に失敗し、不安定なジレンマがしばしば有害なジレンマとともに必要な学習信号を抑圧する。
パラメータ自由度を変調する動的エントロピーファインチューニング(DEFT)を導入する。
論文 参考訳(メタデータ) (2026-02-11T22:56:43Z) - "I May Not Have Articulated Myself Clearly": Diagnosing Dynamic Instability in LLM Reasoning at Inference Time [1.570719611178015]
大規模言語モデル(LLM)の推論失敗は通常、世代末にのみ測定されるが、プロセスレベルのブレークダウンとして多くの障害が現れる。
連続的なステップ分布シフト(JSD)と不確実性(エントロピー)を組み合わせた単純な不安定信号を定義する。
GSM8KとHotpotQA全体で、不安定性はAUCで間違った解を予測し、単調バケットレベルの精度を低下させる。
論文 参考訳(メタデータ) (2026-02-02T22:11:25Z) - Noise-Robust Tiny Object Localization with Flows [63.60972031108944]
フレキシブルなエラーモデリングと不確実性誘導最適化に正規化フローを活用するノイズローバストローカライゼーションフレームワークを提案する。
本手法は,フローベース誤差モデルを用いて,複雑な非ガウス予測分布を抽出し,ノイズの多い監視下で頑健な学習を可能にする。
不確実性を考慮した勾配変調機構は、トレーニングを安定化しながら過度な適合を緩和し、高不確実でノイズの強いサンプルからの学習をさらに抑制する。
論文 参考訳(メタデータ) (2026-01-02T09:16:55Z) - Towards Adversarial Robustness and Uncertainty Quantification in DINOv2-based Few-Shot Anomaly Detection [6.288045889067255]
DINOv2のような基礎モデルは、数発の異常検出において強い性能を示している。
本研究は, 敵攻撃と不確実性評価に関する最初の体系的研究である。
生の異常スコアは校正が不十分で、信頼性と正しさのギャップが明らかになり、安全クリティカルな使用が制限されることがわかりました。
論文 参考訳(メタデータ) (2025-10-15T15:06:45Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。