論文の概要: What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies
- arxiv url: http://arxiv.org/abs/2605.28527v1
- Date: Wed, 27 May 2026 14:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.110361
- Title: What Frozen VLAs Already Know About Success: A Probing Study of Value-Like Structure in Foundation Robot Policies
- Title(参考訳): フリーズンVLAがすでに成功について知っていること:ファンデーションロボット政策におけるバリューライクな構造の研究
- Authors: Jiachen Zhang, Junnan Nie, Junyi Lao, Wei Cheng, Chenghao Liu, Jiaxin Jiang, Songfang Huang,
- Abstract要約: ビジョン・ランゲージ・アクション(VLA)ポリシーは、アクションを模倣するように訓練されている。
凍結特性の軽量線形プローブを用いてモンテカルロの結果目標を復元する。
ゲインは普遍的ではなく、追加の推論計算を必要とするが、基礎となる発見はクリーンである。
- 参考スコア(独自算出の注目度): 36.91260665881213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision--language--action (VLA) policies are trained to imitate actions; their loss never asks them to estimate reward, progress, or future success. Their frozen representations nevertheless carry such information, and it can be read out and used to guide action choice without retraining the policy. From mixed successful and failed manipulation trajectories on LIBERO-Goal, we recover Monte-Carlo outcome targets using lightweight linear probes on frozen features. The targets are consistently predictable from OpenVLA, Pi0.5, DINOv2, and CLIP features, and substantially less so from baselines built on progress, time-to-go, task identity, or proprioception. To rule out task and temporal shortcuts, we evaluate the probes under same-task, same-timestep matched comparisons: Pi0.5 probes still reach roughly 92% pairwise ordering accuracy, while label-shuffled controls stay at chance. Used as a test-time selector over sampled Pi0.5 action prefixes, the same probe turns this offline finding into behavior: on push-plate, success rises from 26.7% under greedy decoding to 44.3%, with a second positive case on wine-rack. The gains are not universal and require additional inference compute, but the underlying finding is clean: frozen VLAs already encode information about success that their imitation objective never explicitly demands.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)ポリシーは、アクションを模倣するように訓練されている。
それにもかかわらず、凍結した表現はそのような情報を持ち、それを読み出して、ポリシーを再訓練することなく行動選択を導くのに使うことができる。
LIBERO-Goal上での操作軌道の混合, 故障から, 凍結特性の軽量線形プローブを用いてモンテカルロの結果目標を回収する。
ターゲットはOpenVLA、Pi0.5、DINOv2、CLIPの機能から常に予測可能であり、プログレッシブ、タイム・トゥ・ゴー、タスク・アイデンティティ、プロプライエセプションといったベースラインからはかなり少ない。
タスクと時間的ショートカットを除外するために、同じタスク、同じタイムステップで比較したプローブを評価する。 Pi0.5プローブは、ほぼ92%のペアオーダー精度を保ちながら、ラベルシャッフル制御は偶然に残る。
サンプル化されたPi0.5アクションプレフィックスの試験時間セレクタとして使用され、同じプローブがオフラインでこの発見を振舞う:プッシュプレートでは、成功率が26.7%から44.3%に上昇し、ワインラックでは第2の正のケースである。
凍結されたVLAはすでに成功に関する情報を符号化しており、模倣の目的が明示的に要求されることは決してない。
関連論文リスト
- Process Rewards with Learned Reliability [25.86885718567082]
下流の手法は、不完全なステップレベルの報酬予測を信頼できる決定信号として扱わなければならない。
ステップレベルの成功確率と,その予測の信頼性の両方を予測する分散PRMであるBetaPRMを提案する。
BetaPRMは、標準ステップレベルのエラー検出を保ちながら、PRM誘導のベストオブN選択を改善する。
論文 参考訳(メタデータ) (2026-05-15T01:57:11Z) - Done, But Not Sure: Disentangling World Completion from Self-Termination in Embodied Agents [11.233308795768465]
VIGILは、端末のコミットメントを独立して測定できる評価フレームワークである。
VIGILのデフォルトプロトコルでは、エージェントはエゴセントリックなRGBのみを観察し、アクション・サクセス・シグナルを受信せず、各エピソードは、隠された世界状態に対して決定論的にチェックされたセマンティック・レポートで終了しなければならない。
これにより、ワールドステートコンプリート(W)とベンチマーク成功(B)の2つのスコアが得られます。
論文 参考訳(メタデータ) (2026-05-09T07:24:07Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment [58.93227458806748]
CoVer-VLAは、訓練された検証器を用いた階層的なテスト時間検証パイプラインである。
我々のフレームワークはビジョン・ランゲージ・モデルから多種多様な説明文をプリコンプリートする。
各命令に対して繰り返しアクション候補を生成し、検証器を使用して最適なハイレベルプロンプトと低レベルアクションチャンクを選択する。
論文 参考訳(メタデータ) (2026-02-12T18:59:59Z) - Value Vision-Language-Action Planning & Search [1.631000263754549]
VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
論文 参考訳(メタデータ) (2026-01-02T19:40:34Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。