論文の概要: Value Vision-Language-Action Planning & Search
- arxiv url: http://arxiv.org/abs/2601.00969v1
- Date: Fri, 02 Jan 2026 19:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.887874
- Title: Value Vision-Language-Action Planning & Search
- Title(参考訳): Value Vision-Language-Action Planning & Search
- Authors: Ali Salamatian, Ke, Ren, Kieran Pattison, Cyrus Neary,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
- 参考スコア(独自算出の注目度): 1.631000263754549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as powerful generalist policies for robotic manipulation, yet they remain fundamentally limited by their reliance on behavior cloning, leading to brittleness under distribution shift. While augmenting pretrained models with test-time search algorithms like Monte Carlo Tree Search (MCTS) can mitigate these failures, existing formulations rely solely on the VLA prior for guidance, lacking a grounded estimate of expected future return. Consequently, when the prior is inaccurate, the planner can only correct action selection via the exploration term, which requires extensive simulation to become effective. To address this limitation, we introduce Value Vision-Language-Action Planning and Search (V-VLAPS), a framework that augments MCTS with a lightweight, learnable value function. By training a simple multilayer perceptron (MLP) on the latent representations of a fixed VLA backbone (Octo), we provide the search with an explicit success signal that biases action selection toward high-value regions. We evaluate V-VLAPS on the LIBERO robotic manipulation suite, demonstrating that our value-guided search improves success rates by over 5 percentage points while reducing the average number of MCTS simulations by 5-15 percent compared to baselines that rely only on the VLA prior.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場したが、行動クローニングへの依存により基本的に制限され、分散シフト下での脆さに繋がる。
モンテカルロ木探索(MCTS)のようなテスト時間探索アルゴリズムによる事前トレーニングモデルの拡張はこれらの障害を軽減することができるが、既存の定式化はガイダンスに先立ってVLAにのみ依存しており、予測される将来的なリターンの見積が不足している。
その結果、事前の精度が不正確な場合、プランナーは探索項による行動選択のみを補正できるため、広範囲なシミュレーションが効果的になる必要がある。
この制限に対処するために、我々は、MCTSを軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search (V-VLAPS)を導入する。
固定VLAバックボーン(Octo)の潜伏表現に対して,単純な多層パーセプトロン(MLP)をトレーニングすることにより,高値領域に対する行動選択をバイアスする明確な成功信号を求める。
我々は,LIBEROロボット操作スイート上でのV-VLAPSを評価し,VLAにのみ依存するベースラインに比べて,MCTSシミュレーションの平均回数を5~15%削減しながら,価値誘導検索が成功率を5パーセント以上向上することを示した。
関連論文リスト
- Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search [7.9342097024286815]
VLAPS(Vision-Language-Action Planning & Search)について紹介する。
モデルベースの検索を事前訓練されたVLAポリシーの推論手順に組み込む。
VLAPSは、言語指定タスクにおけるVLAのみのベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-08-17T02:59:42Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - Interactive Post-Training for Vision-Language-Action Models [28.32397816792674]
RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。
RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。
1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
論文 参考訳(メタデータ) (2025-05-22T17:59:45Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation [100.25567121604382]
VLA(Vision-Language-Action)モデルは、言語誘導されたタスクの実行と、目に見えないシナリオへの一般化の観点から、ロボット操作を改善した。
VLM(Vision-Language-Models)に基づく新しい高度なVLAアーキテクチャを提案する。
我々のモデルはタスクパフォーマンスにおいて既存のVLAをはるかに上回るだけでなく、新しいロボットへの顕著な適応と、見えないオブジェクトや背景への一般化も示している。
論文 参考訳(メタデータ) (2024-11-29T12:06:03Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - VinePPO: Refining Credit Assignment in RL Training of LLMs [66.80143024475635]
我々は,言語環境の柔軟性を利用してモンテカルロをベースとした推定値を計算する,簡単なアプローチであるVinePPOを提案する。
本手法は,MATHおよびGSM8Kデータセット間のPPOおよび他のベースラインをウォールクロック時間以下で連続的に上回る。
論文 参考訳(メタデータ) (2024-10-02T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。