論文の概要: $π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control
- arxiv url: http://arxiv.org/abs/2605.23128v1
- Date: Fri, 22 May 2026 01:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.144099
- Title: $π_0$-EqM: Equilibrium Matching for Closed-Loop Vision-Language-Action Control
- Title(参考訳): $π_0$-EqM:クローズドループビジョン・ランゲージ・アクション制御のための平衡マッチング
- Authors: Huanming Liu, Congsheng Xu, Jianmin Ji, Yao Mu,
- Abstract要約: VLA(Vision-Language-Action)制御のための生成フローマッチング動作デコーダは、しばしば固定されたサンプリング水平線で展開される。
フローマッチングの専門家を$_$でEquilibrium Matching (EqM)デコーダに置き換え、上流のVLAスタックをそのままにしておく。
一致した300ステップの予算の下で、$_$-EqMは、RoboTwinの平均的な成功を、19のタスクで40.4%から50.2%に改善し、LIBEROでは競争力を維持している。
- 参考スコア(独自算出の注目度): 15.91564223967737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, Vision-Language-Action (VLA) models have become the most adopted paradigm for robotic manipulation for its great potential for task generalization. While most generative flow-matching action decoders for VLA control are often deployed with fixed sampling horizons, limiting state-dependent compute and temporal reuse across control cycles. We present $π_0$-EqM, which replaces the flow-matching expert in $π_0$ with an Equilibrium Matching (EqM) decoder while leaving the upstream VLA stack unchanged. Under a matched 300-step budget, $π_0$-EqM improves RoboTwin average success from 40.4% to 50.2% across 19 tasks and remains competitive on LIBERO, with its clearest gain on LIBERO-10 (87.0%). Two threshold scans reveal a task-dependent non-monotonic relation between residual and success, which we term the stationarity--executability gap. The results suggest that inference depth in iterative VLA control is part of policy design and introduce an energy-based VLA perspective that may inform future work on composable action generation across tasks and embodiments.
- Abstract(参考訳): 現在、VLA(Vision-Language-Action)モデルは、タスク一般化の大きな可能性のために、ロボット操作において最も採用されているパラダイムとなっている。
VLA制御のためのほとんどの生成フローマッチングアクションデコーダは、しばしば固定されたサンプリング水平線で展開され、状態依存の計算と制御サイクル間の時間的再利用を制限する。
我々は,上流VLAスタックをそのまま残しながら,フローマッチングの専門家を$π_0$でEquilibrium Matching (EqM)デコーダに置き換える,$π_0$-EqMを提案する。
一致した300ステップの予算の下で、$π_0$-EqMは、RoboTwinの平均的な成功を、19のタスクで40.4%から50.2%に改善し、LIBERO-10(87.0%)で最多の上昇を保っている。
2つのしきい値スキャンでは、残差と成功の間のタスク依存の非モノトニックな関係が示され、これは定常性-実行可能性ギャップと呼ばれる。
その結果, 反復型VLA制御における推論深度は政策設計の一部であり, エネルギーに基づくVLAの視点を導入し, タスクや実施形態をまたいだ構成可能な行動生成の今後の研究を知らせる可能性が示唆された。
関連論文リスト
- LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Adaptive Capacity Allocation for Vision Language Action Fine-tuning [30.782665306687992]
視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、未確認環境に事前訓練されたVLAモデルをデプロイするには、まだ適応が必要である。
固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SPを提案する。
目に見えないAgileX PiPERのアームで収集された4つの実ロボット操作タスクでは、LoRA-SPはトレーニング可能なパラメータがはるかに少ない完全な微調整にマッチするか、超える。
論文 参考訳(メタデータ) (2026-03-08T01:33:01Z) - LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Value Vision-Language-Action Planning & Search [1.631000263754549]
VLA(Vision-Language-Action)モデルは、ロボット操作のための強力なジェネラリストポリシーとして登場した。
本稿では,モンテカルロ木探索を軽量で学習可能な値関数で拡張するフレームワークであるValue Vision-Language-Action Planning and Search(V-VLAPS)を紹介する。
LIBEROロボット操作スイート上でのV-VLAPSを評価し、価値誘導探索が成功率を5%以上向上することを示した。
論文 参考訳(メタデータ) (2026-01-02T19:40:34Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models [28.422082187079166]
我々は、Vision-Language-Action(VLA)モデルのテスト時間スケーリングフレームワークであるRoboMonkeyを紹介した。
RoboMonkeyは、VLAから小さなアクションの集合をサンプリングし、ガウス摂動と過半数投票を適用してアクション提案分布を構築し、次に視覚言語モデル(VLM)ベースの検証器を使用して最適なアクションを選択する。
既存のVLAとRoboMonkeyのペアリングは大きなパフォーマンス向上をもたらし、アウト・オブ・ディストリビューションタスクでは25%、イン・ディストリビューションタスクでは9%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-06-21T20:56:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。