論文の概要: Verifier-free Test-Time Sampling for Vision Language Action Models
- arxiv url: http://arxiv.org/abs/2510.05681v1
- Date: Tue, 07 Oct 2025 08:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.162852
- Title: Verifier-free Test-Time Sampling for Vision Language Action Models
- Title(参考訳): 視覚言語行動モデルのための検証自由なテスト時間サンプリング
- Authors: Suhyeok Jang, Dongyoung Kim, Changyeon Kim, Youngsuk Kim, Jinwoo Shin,
- Abstract要約: Masking Distribution Guided Selection (MG-Select)はVision-Language-Actionモデルのための新しいテスト時間スケーリングフレームワークである。
実験の結果,MG-Selectは大幅な性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 46.54221299065429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action models (VLAs) have demonstrated remarkable performance in robot control. However, they remain fundamentally limited in tasks that require high precision due to their single-inference paradigm. While test-time scaling approaches using external verifiers have shown promise, they require additional training and fail to generalize to unseen conditions. We propose Masking Distribution Guided Selection (MG-Select), a novel test-time scaling framework for VLAs that leverages the model's internal properties without requiring additional training or external modules. Our approach utilizes KL divergence from a reference action token distribution as a confidence metric for selecting the optimal action from multiple candidates. We introduce a reference distribution generated by the same VLA but with randomly masked states and language conditions as inputs, ensuring maximum uncertainty while remaining aligned with the target task distribution. Additionally, we propose a joint training strategy that enables the model to learn both conditional and unconditional distributions by applying dropout to state and language conditions, thereby further improving the quality of the reference distribution. Our experiments demonstrate that MG-Select achieves significant performance improvements, including a 28%/35% improvement in real-world in-distribution/out-of-distribution tasks, along with a 168% relative gain on RoboCasa pick-and-place tasks trained with 30 demonstrations.
- Abstract(参考訳): VLA(Vision-Language-Action Model)は、ロボット制御において顕著な性能を示す。
しかし、それらは基本的に、単一の推論パラダイムのために高い精度を必要とするタスクに限られている。
外部検証器を用いたテストタイムスケーリングアプローチは有望であるが、追加のトレーニングが必要であり、目に見えない条件に一般化することができない。
本稿では,新たなトレーニングや外部モジュールを必要とせずにモデルの内部特性を活用する,VLAのための新しいテストタイムスケーリングフレームワークであるMasking Distribution Guided Selection (MG-Select)を提案する。
提案手法は,複数の候補から最適な動作を選択するための信頼度として,参照アクショントークン分布からのKL分散を利用する。
我々は,同一のVLAによって生成された参照分布をランダムにマスキングした状態と言語条件を入力として導入し,目標タスク分布に整合しながら最大不確実性を確保する。
さらに,モデルが状態や言語条件にドロップアウトを適用して条件分布と非条件分布の両方を学習できるようにすることにより,参照分布の品質をさらに向上する共同学習戦略を提案する。
実験の結果,MG-Selectは実世界の流通/流通タスクを28%/35%改善し,RoboCasaピック・アンド・プレイス・タスクを30回のデモでトレーニングした168%の相対的な向上を達成できた。
関連論文リスト
- RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [65.31658824274894]
Best-of-N選択は、大規模言語モデルの推論性能を改善するための重要なテクニックである。
本稿では,外部報酬モデルを必要とすることなく,応答品質を推定する新規かつ効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。