論文の概要: Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search
- arxiv url: http://arxiv.org/abs/2508.12211v1
- Date: Sun, 17 Aug 2025 02:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.615464
- Title: Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search
- Title(参考訳): モデルベースサーチによる事前学習型ビジョンランゲージ・アクション・ポリシーの改善
- Authors: Cyrus Neary, Omar G. Younis, Artur Kuramshin, Ozgur Aslan, Glen Berseth,
- Abstract要約: VLAPS(Vision-Language-Action Planning & Search)について紹介する。
モデルベースの検索を事前訓練されたVLAポリシーの推論手順に組み込む。
VLAPSは、言語指定タスクにおけるVLAのみのベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 7.9342097024286815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language-action (VLA) models offer a promising foundation for generalist robot policies, but often produce brittle behaviours or unsafe failures when deployed zero-shot in out-of-distribution scenarios. We present Vision-Language-Action Planning & Search (VLAPS) -- a novel framework and accompanying algorithms that embed model-based search into the inference procedure of pre-trained VLA policies to improve their performance on robotic tasks. Specifically, our method biases a modified Monte Carlo Tree Search (MCTS) algorithm -- run using a model of the target environment -- using action priors defined by the VLA policy. By using VLA-derived abstractions and priors in model-based search, VLAPS efficiently explores language-conditioned robotics tasks whose search spaces would otherwise be intractably large. Conversely, by integrating model-based search with the VLA policy's inference procedure, VLAPS yields behaviours that are more performant than those obtained by directly following the VLA policy's action predictions. VLAPS offers a principled framework to: i) control test-time compute in VLA models, ii) leverage a priori knowledge of the robotic environment, and iii) integrate established planning and reinforcement learning techniques into the VLA inference process. Across all experiments, VLAPS significantly outperforms VLA-only baselines on language-specified tasks that would otherwise be intractable for uninformed search algorithms, increasing success rates by as much as 67 percentage points.
- Abstract(参考訳): 事前訓練された視覚言語アクション(VLA)モデルは、一般的なロボットポリシーの有望な基盤を提供するが、アウト・オブ・ディストリビューションのシナリオでゼロショットをデプロイすると、不安定な動作や安全でない障害が発生することが多い。
VLAPS(Vision-Language-Action Planning & Search)は、ロボットタスクにおけるパフォーマンス向上のために、事前訓練されたVLAポリシーの推論手順にモデルベースの探索を組み込む新しいフレームワークで、それに伴うアルゴリズムである。
具体的には、VLAポリシで定義されたアクションプリエントを使用して、ターゲット環境のモデルを使用して実行されている修正Monte Carlo Tree Search (MCTS)アルゴリズムをバイアスする。
VLAから派生した抽象概念とモデルベース検索の先行概念を用いることで、VLAPSは検索空間が難解なほど大きい言語条件のロボットタスクを効率的に探索する。
逆に、モデルベースの探索をVLAポリシーの推論手順と統合することにより、VLAPSはVLAポリシーのアクション予測を直接従うことによって得られるものよりも、よりパフォーマンスの高い行動を生成する。
VLAPSは以下の原則のフレームワークを提供する。
一 VLAモデルにおけるテスト時間計算の制御
二 ロボット環境に関する事前知識を活用して、
三 確立した計画及び強化学習技術をVLA推論プロセスに統合すること。
すべての実験において、VLAPSは言語指定タスクに対してVLAのみのベースラインを著しく上回り、非情報検索アルゴリズムでは難解であり、成功率を最大67%向上させる。
関連論文リスト
- From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning [14.099306230721245]
VLA-RLは、オンライン収集データをテスト時に改善する探索ベースのフレームワークである。
自動抽出タスクセグメントにアノテートされた擬似報酬ラベルに基づいてトレーニングされたロボットプロセス報酬モデルとして、事前学習された視覚言語モデルを微調整する。
VLA-RLにより、OpenVLA-7BはLIBEROの40の挑戦的なロボット操作タスクにおいて、最強の微調整ベースラインを4.5%超えることができる。
論文 参考訳(メタデータ) (2025-05-24T14:42:51Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation [7.8735930411335895]
本稿では,VLAモデルをテストするロボット操作シーンを生成するファジィフレームワークであるVLATestを紹介する。
VLATestに基づいて,7つの代表的なVLAモデルの性能評価実験を行った。
論文 参考訳(メタデータ) (2024-09-19T16:33:00Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。
組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。
具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。