論文の概要: LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.09948v1
- Date: Mon, 11 May 2026 03:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.503801
- Title: LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models
- Title(参考訳): LoopVLA:ビジョン・ランゲージ・アクションモデルにおけるリカレントリファインメントの学習効率
- Authors: Boyang Shen, Kaixiang Yang, Hao Wang, Qiuyu Yu, Qiang Xie, Qiang Li, Zhiwei Wang,
- Abstract要約: LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
- 参考スコア(独自算出の注目度): 13.30873593845724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Vision-Language-Action (VLA) models typically treat the deepest representation of a vision-language backbone as universally optimal for action prediction. However, robotic manipulation is composed of many frequent closed-loop spatial adjustments, for which excessive abstraction may waste computation and weaken low-level geometric cues essential for precise control. Existing early-exit strategies attempt to reduce computation by stopping at predefined layers or applying heuristic rules such as action consistency, but they do not directly answer when a representation is actually sufficient for action. In this paper, we present LoopVLA, a recurrent VLA architecture that jointly learns representation refinement, action prediction, and sufficiency estimation. LoopVLA iteratively applies a shared Transformer block to refine multimodal tokens, and at each iteration produces both a candidate action and a sufficiency score that estimates whether further refinement is necessary. By sharing parameters across iterations, LoopVLA decouples refinement from absolute layer indices and grounds sufficiency estimation in the evolving representation itself. Since sufficiency has no direct supervision, we introduce a self-supervised distribution alignment objective, where intermediate confidence scores are trained to match the relative action quality across refinement steps, thereby linking sufficiency learning to policy optimization signals. Experiments on LIBERO, LIBERO-Plus, and VLA-Arena show that LoopVLA pushes the efficiency-performance frontier of VLA policies, reducing parameters by 45% and improving inference throughput by up to 1.7 times while matching or outperforming strong baselines in task success.
- Abstract(参考訳): 現在のVision-Language-Action(VLA)モデルは一般的に、視覚言語バックボーンの最も深い表現をアクション予測に普遍的に最適として扱う。
しかし、ロボット操作は多くの閉ループ空間調整で構成されており、過度の抽象化は計算を無駄にし、正確な制御に不可欠な低レベルの幾何学的キューを弱める可能性がある。
既存のアーリーエグジット戦略は、事前に定義されたレイヤで停止したり、アクション一貫性のようなヒューリスティックなルールを適用して計算を減らそうとするが、表現が実際にアクションに十分である場合に直接答えることはない。
本稿では,表現の洗練,行動予測,満足度推定を共同で学習する繰り返しVLAアーキテクチャであるLoopVLAを提案する。
LoopVLAは共有トランスフォーマーブロックを反復的に適用してマルチモーダルトークンを洗練させ、各イテレーションでは候補アクションと十分スコアの両方を生成し、さらなる改善が必要かどうかを推定する。
繰り返しにまたがってパラメータを共有することで、LoopVLAは絶対層の指標から洗練を分離し、進化する表現自体の十分さを見積もる。
そこで我々は, 自己監督型分布アライメント目標を導入し, 中間信頼度スコアを訓練して, 相対的な行動品質を調整し, 十分学習と政策最適化信号とをリンクする。
LIBERO、LIBERO-Plus、VLA-Arenaの実験では、LoopVLAはVLAポリシーの効率性向上のフロンティアを推進し、パラメータを45%削減し、推論スループットを最大1.7倍改善し、タスク成功における強力なベースラインのマッチングや性能向上を実現している。
関連論文リスト
- AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching [20.252867273996085]
本稿では,アクショントークンの反復精製のための離散フローマッチングVLAであるDFM-VLAを提案する。
DFM-VLAは、操作性能において、強い自己回帰、離散拡散、連続拡散ベースラインよりも一貫して優れる。
論文 参考訳(メタデータ) (2026-03-27T11:38:43Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - AC^2-VLA: Action-Context-Aware Adaptive Computation in Vision-Language-Action Models for Efficient Robotic Manipulation [21.23747444669735]
VLAモデル(AC2-VLA)に対するアクションコンテキスト対応適応計算を提案する。
AC2-VLAは、タイムステップ間の認識再利用、トークンプルーニング、統一メカニズム内のモデルコンポーネントの選択的な実行を適応的に行う。
ロボット操作ベンチマークの実験では、AC2-VLAはFLOPを29.4%まで減らし、最大1.79倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-27T14:10:39Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。