論文の概要: INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2510.01389v1
- Date: Wed, 01 Oct 2025 19:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.83872
- Title: INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models
- Title(参考訳): InSIGHT: Inference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models
- Authors: Ulas Berk Karli, Ziyao Shangguan, Tesca FItzgerald,
- Abstract要約: 最近のVision-Language-Action(VLA)モデルは強力な一般化能力を示しているが、失敗を予測したり、人間の上司に助けを求めるための内省的なメカニズムは欠如している。
トークンレベルの不確実性信号を利用してVLAがいつ助けを求めるべきかを予測する学習フレームワークである textbfINSIGHT を提案する。
- 参考スコア(独自算出の注目度): 2.509305596181814
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent Vision-Language-Action (VLA) models show strong generalization capabilities, yet they lack introspective mechanisms for anticipating failures and requesting help from a human supervisor. We present \textbf{INSIGHT}, a learning framework for leveraging token-level uncertainty signals to predict when a VLA should request help. Using $\pi_0$-FAST as the underlying model, we extract per-token \emph{entropy}, \emph{log-probability}, and Dirichlet-based estimates of \emph{aleatoric and epistemic uncertainty}, and train compact transformer classifiers to map these sequences to help triggers. We explore supervision regimes for strong or weak supervision, and extensively compare them across in-distribution and out-of-distribution tasks. Our results show a trade-off: strong labels enable models to capture fine-grained uncertainty dynamics for reliable help detection, while weak labels, though noisier, still support competitive introspection when training and evaluation are aligned, offering a scalable path when dense annotation is impractical. Crucially, we find that modeling the temporal evolution of token-level uncertainty signals with transformers provides far greater predictive power than static sequence-level scores. This study provides the first systematic evaluation of uncertainty-based introspection in VLAs, opening future avenues for active learning and for real-time error mitigation through selective human intervention.
- Abstract(参考訳): 最近のVision-Language-Action(VLA)モデルは強力な一般化能力を示しているが、失敗を予測したり、人間の上司に助けを求めるための内省的なメカニズムは欠如している。
VLAがいつ助けを求めるべきかを予測するためにトークンレベルの不確実性信号を利用する学習フレームワークであるtextbf{INSIGHT}を提案する。
基礎となるモデルとして $\pi_0$-FAST を用いて、各Token \emph{entropy}, \emph{log-probability} と、Dirichlet による \emph{aleatoric および epistemic uncertainty} の推定を抽出し、これらのシーケンスをマッピングするためにコンパクトな変換器分類器を訓練する。
我々は、強い監督や弱い監督のための監督体制を探求し、流通中および流通外タスクでそれらを広範囲に比較する。
強力なラベルは、信頼性の高いヘルプ検出のためのきめ細かい不確実性ダイナミクスを捕捉するのに対して、弱いラベルは、ノイズが多いが、トレーニングと評価が整ったときに競争的イントロスペクションをサポートし、密集アノテーションが実用的でない場合にスケーラブルなパスを提供する。
重要なことに、トークンレベルの不確実性信号の時間的進化をトランスフォーマーでモデル化することは、静的なシーケンスレベルスコアよりもはるかに高い予測力をもたらす。
本研究は, VLAにおける不確実性に基づくイントロスペクションの体系的評価を初めて行い, アクティブラーニングと人為的介入によるリアルタイムエラー軽減に向けた今後の道を開く。
関連論文リスト
- Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Anomalous Decision Discovery using Inverse Reinforcement Learning [3.3675535571071746]
異常検出は、知覚システムを通じて異常な行動を特定することによって、自律走行車(AV)において重要な役割を果たす。
現在のアプローチは、しばしば定義済みのしきい値や教師付き学習パラダイムに依存するが、目に見えないシナリオに直面すると効果が低下する。
異常検出のための新しいIRLフレームワークである Trajectory-Reward Guided Adaptive Pre-training (TRAP) を提案する。
論文 参考訳(メタデータ) (2025-07-06T17:01:02Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework [18.54098084470481]
本稿では,視覚言語ベンチマーク間のサイコフィナンシーを分析し,推論時間緩和フレームワークを提案する。
我々のフレームワークは、中立なプロンプトの性能を維持しながら、評価されたすべてのモデルでサイコフィナンシーを効果的に軽減します。
論文 参考訳(メタデータ) (2024-08-21T01:03:21Z) - Selective Learning: Towards Robust Calibration with Dynamic Regularization [79.92633587914659]
ディープラーニングにおけるミススキャリブレーションとは、予測された信頼とパフォーマンスの間には相違がある、という意味である。
トレーニング中に何を学ぶべきかを学ぶことを目的とした動的正規化(DReg)を導入し、信頼度調整のトレードオフを回避する。
論文 参考訳(メタデータ) (2024-02-13T11:25:20Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Unsupervised sequence-to-sequence learning for automatic signal quality
assessment in multi-channel electrical impedance-based hemodynamic monitoring [0.6875312133832077]
本研究では,血行動態モニタリングにおける心臓容積信号(CVS)の運動誘発信頼性を自動的に評価する,教師なしシーケンス・ツー・シーケンス学習手法を提案する。
エンコーダ・デコーダモデルは、CVSの入力シーケンスを自己複製するだけでなく、並列的に未来を推定するために訓練される。
トレーニングセット上の親指の2シグマ規則から決定されるカットオフ値で入力シーケンスとその神経表現間の残差に基づいて、低品質の動作影響CVSを検出する。
論文 参考訳(メタデータ) (2023-05-16T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。