論文の概要: BOKBO (Best of K Bad Options): Calibrated Abstention for VLA Policies
- arxiv url: http://arxiv.org/abs/2605.30660v1
- Date: Thu, 28 May 2026 23:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.291116
- Title: BOKBO (Best of K Bad Options): Calibrated Abstention for VLA Policies
- Title(参考訳): BOKBO(Best of K Bad Options):VLAポリシーの校正
- Authors: Anya Singh, Cabrel Happi, Jai Relan, Varun Nair, Vidyut Baradwaj,
- Abstract要約: VLA(Vision-suite-action)ポリシー、RoboMonkey、SEAL、MG-Select、V-GPSなどのメソッドに対するテストタイムスケーリングは、推論時にK候補アクションチャンクをサンプリングし、検証-ベストを実行する。
K-sample VLA推論のための最初の共形吸収層であるBOKBOを提案する。
- 参考スコア(独自算出の注目度): 1.3918848543076061
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling for vision-language-action (VLA) policies, methods such as RoboMonkey, SEAL, MG-Select, and V-GPS, samples K candidate action chunks at inference and executes the verifier-best. When all K candidates are unsafe, the system executes a violating action with no warning. We propose BOKBO, the first conformal abstention layer for K-sample VLA inference, providing finite-sample distribution-free guarantees on executed-violation rate. We provide both global and per-task (Mondrian) variants, with the per-task variant closing the conditional gap on the hardest tasks. Our analysis exposes a structural failure of policy-internal nonconformity scores under perturbation-based K-sampling: the base-policy confidence proxy and K-sample disagreement correlate at 0.98 with the action-noise hyperparameter $σ$, while correlating at the noise floor with actual safety violations. We test the failure's scope by replicating the analysis under token-level temperature sampling and find the failure is mechanism-specific and partially mitigated under policy-stochasticity-based sampling. A learned violation predictor conditioned on semantic visual features and task identity supports tight calibration: at $ε$ = 0.05 on libero_object_temp_x0.1 with OpenVLA-OFT, the conditional CRC bound holds on 86% of bootstrap splits with 78% coverage and 70% net task success. Mondrian-BOKBO raises the minimum per-task conditional hold fraction from 0.71 to 0.93. Results are stable across 5 training seeds, replicate within bootstrap noise on $π_0$-FAST, hold on libero_spatial_temp_x0.1 as a co-equal benchmark, and survive four within-suite distribution shifts. We additionally identify and correct a methodological pitfall: globally-set force thresholds well below expert-typical manipulation forces conflate unsafe behavior with normal manipulation, inflating violation rates by $5\times$.
- Abstract(参考訳): 視覚言語アクション(VLA)ポリシーのテスト時間スケーリング、RoboMonkey、SEAL、MG-Select、V-GPSといったメソッドは、推論時にK候補アクションチャンクをサンプリングし、検証-ベストを実行する。
すべてのK候補が安全でない場合、システムは警告なしで違反行為を実行する。
K-sample VLA推論のための最初の共形吸収層であるBOKBOを提案する。
グローバルおよびタースク毎(モンドリアン)の変種を提供し、タスクごとの変種は最も難しいタスクの条件付きギャップを閉じる。
本分析では, 基本政治信頼プロキシとKサンプルの不一致は, ノイズフロアにおいて実際の安全違反と相関しながら, アクションノイズハイパーパラメータ$σ$と0.98で相関する。
トークンレベルの温度サンプリングで解析を複製することにより、障害の範囲を検証し、その障害はメカニズム固有であり、ポリシー確率に基づくサンプリングで部分的に緩和される。
OpenVLA-OFTによるlibero_object_temp_x0.1の$ε$ = 0.05で、条件付きCRC境界はブートストラップの86%、カバレッジは78%、ネットタスクの成功率は70%である。
Mondrian-BOKBO は最小のタスク単位の保持率を 0.71 から 0.93 に引き上げる。
結果は,5つの訓練種子に対して安定し,π_0$-FASTのブートストラップノイズ内での再現,libero_spatial_temp_x0.1を同値のベンチマークとして保持し,4つの内部分布シフトに耐える。
我々はまた、方法論的な落とし穴を同定し、修正する: 専門家の典型的な操作力よりはるかに低い世界的設定の力閾値は、安全でない振る舞いを正常な操作で説明し、違反率を5\times$で膨らませる。
関連論文リスト
- A Paired Testing Protocol for Batch-Conditioned Refusal Robustness in LLM Serving [0.0]
言語モデルの安全性評価は、サービス構成を固定されたバックグラウンドインフラストラクチャとして扱うことが多い。
我々は4つのアーティファクト支援研究をペアテストプロトコルに合成する。
標準vLLMは、現在のスコアフリップ候補に対して22/55ラベルのフリップを再生し、VLLM_BATCH_INIANT=1を有効にすることで、同じテストを0/55フリップに削減する。
論文 参考訳(メタデータ) (2026-05-26T23:22:55Z) - Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models [0.0]
経験的防御は、損失の一部をクリーンな精度で回収する。
我々は,行動生成ポリシーに対する情報理論上の最初の境界を与えることによって,それが可能であることを証明した。
論文 参考訳(メタデータ) (2026-05-25T14:16:57Z) - Decoupled Conformal Optimisation: Efficient Prediction Sets via Independent Tuning and Calibration [20.21455697379946]
そこで我々は,列車チューンキャリブレート設計の原則としてデカップリング・コンフォーマル最適化(DCO)を提案する。
DCOは、効率指向構造選択のために独立したチューニングスプリットと、最終共形量子化のための新鮮なキャリブレーションスプリットを使用する。
DCOは,PACスタイルのキャリブレーションに対して,平均予測セットサイズや間隔幅を小さくしながら,名目カバレッジレベルを密に追跡する。
論文 参考訳(メタデータ) (2026-05-18T13:10:21Z) - Stopping Reliability in Adaptive Krylov-Shadow Quantum Fisher Information Estimation [0.0]
アダプティブ量子フィッシャー情報(QFI)推定は、精度と明らかな数値安定性を区別する停止規則を必要とする。
区間幅と局所クリロフ安定性に基づく幅のみの経験的停止則は,ポストホック誤差が要求される許容値を超えた場合でも,小さい$(K,M)$で収束を宣言できることを示す。
論文 参考訳(メタデータ) (2026-05-14T04:02:23Z) - When Are Trade-Off Functions Testable from Finite Samples? [4.706977254727891]
2つの未知確率分布のトレードオフ関数に対する有限サンプル推論について検討する。
テストの反転により、トレードオフ曲線全体に対する同時信頼バンドも得られる。
論文 参考訳(メタデータ) (2026-05-11T16:07:48Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Almost Asymptotically Optimal Active Clustering Through Pairwise Observations [59.20614082241528]
そこで本研究では, ノイズと能動的に収集された応答を用いて, M$アイテムを未知数の$K$個別グループにクラスタリングするための新しい分析フレームワークを提案する。
クラスタリングの精度に対する望ましい信頼性を達成するのに必要なクエリ数の基本的下位境界を確立する。
我々は、一般化された同値比統計の計算可能な変種を開発し、その下限に対する性能ギャップを正確に推定できることを実証的に示す。
論文 参考訳(メタデータ) (2026-02-05T14:16:47Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。