論文の概要: Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System
- arxiv url: http://arxiv.org/abs/2604.24921v1
- Date: Mon, 27 Apr 2026 19:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.56449
- Title: Libra-VLA: Achieving Learning Equilibrium via Asynchronous Coarse-to-Fine Dual-System
- Title(参考訳): Libra-VLA: Asynchronous Coarse-to-Fine Dual-Systemによる学習均衡の実現
- Authors: Yifei Wei, Linqing Zhong, Yi Liu, Yuxiang Lu, Xindong He, Maoqing Yao, Guanghui Ren,
- Abstract要約: VLA(Vision-Language-Action)モデルは、汎用的なロボット操作において有望なパラダイムである。
本稿では,新しいデュアルシステムVLAアーキテクチャであるLibra-VLAを紹介する。
当社のアプローチは,オープンワールド操作に対して,スケーラブルで堅牢で応答性の高いソリューションを提供しています。
- 参考スコア(独自算出の注目度): 15.427164345561417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models are a promising paradigm for generalist robotic manipulation by grounding high-level semantic instructions into executable physical actions. However, prevailing approaches typically adopt a monolithic generation paradigm, directly mapping visual-linguistic features to high-frequency motor commands in a flat, non-hierarchical fashion. This strategy overlooks the inherent hierarchy of robotic manipulation, where complex actions can be naturally modeled in a Hybrid Action Space, decomposing into discrete macro-directional reaching and continuous micro-pose alignment, severely widening the semantic-actuation gap and imposing a heavy representational burden on grounding high-level semantics to continuous actions. To address this, we introduce Libra-VLA, a novel Coarse-to-Fine Dual-System VLA architecture. We explicitly decouple the learning complexity into a coarse-to-fine hierarchy to strike a training equilibrium, while simultaneously leveraging this structural modularity to implement an asynchronous execution strategy. The Semantic Planner predicts discrete action tokens capturing macro-directional intent, while the Action Refiner conditions on coarse intent to generate high-frequency continuous actions for precise alignment. Crucially, our empirical analysis reveals that performance follows an inverted-U curve relative to action decomposition granularity, peaking exactly when the learning difficulty is balanced between the two sub-systems. With the asynchronous design, our approach offers a scalable, robust, and responsive solution for open-world manipulation.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、高レベルなセマンティックインストラクションを実行可能な物理動作に基礎付けることで、汎用的なロボット操作のための有望なパラダイムである。
しかし、一般的なアプローチはモノリシックな生成パラダイムを採用し、フラットで非階層的な方法で視覚言語的な特徴を直接高周波モーターコマンドにマッピングする。
この戦略は、複雑なアクションをハイブリッドアクション空間で自然にモデル化し、個別のマクロ方向のリーチと連続的なマイクロポジションアライメントに分解し、セマンティック・アクティベーションギャップを著しく拡大し、ハイレベルなセマンティクスを連続アクションに基礎付ける上で、表現上の重荷を課すという、ロボット操作の本質的な階層を見落としている。
この問題に対処するために,我々は新しい2元連系VLAアーキテクチャであるLibra-VLAを紹介した。
学習の複雑さを粗い階層に明確に分離し、トレーニング均衡を打つと同時に、この構造的モジュラリティを活用して非同期実行戦略を実装します。
Semantic Plannerはマクロ指向の意図をキャプチャする個別のアクショントークンを予測し、Action Refinerは粗い意図に条件を定め、高精度なアライメントのために高周波連続アクションを生成する。
実験により,2つのサブシステム間での学習困難度がバランスの取れた場合に,動作分解の粒度に対して逆U曲線を導いた結果が得られた。
非同期設計では、当社のアプローチは、オープンワールド操作のためのスケーラブルで堅牢でレスポンシブなソリューションを提供します。
関連論文リスト
- From Noise to Intent: Anchoring Generative VLA Policies with Residual Bridges [39.128014667094014]
ResVLAはパラダイムを"Refinement-from-Noise-Intent"に変えるアーキテクチャである
残留拡散橋による局所力学の精製に焦点を当てている。
これは現実世界のロボット実験で強いパフォーマンスを示す。
論文 参考訳(メタデータ) (2026-04-23T07:59:26Z) - AnchorRefine: Synergy-Manipulation Based on Trajectory Anchor and Residual Refinement for Vision-Language-Action Models [60.04879435087352]
視覚言語アクション(VLA)ポリシーは、単一の統一空間内でアクションを生成する。
本稿では,VLAの動作モデリングを軌跡アンカーと残留精細化に分解する階層的フレームワークであるAnchorRefineを提案する。
LIBERO、CALVIN、および実ロボットタスクの実験では、AnchorRefineは回帰ベースと拡散ベースの両方のVLAバックボーンを一貫して改善している。
論文 参考訳(メタデータ) (2026-04-20T04:25:24Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - AR-VLA: True Autoregressive Action Expert for Vision-Language-Action Models [36.00004339916959]
本稿では、連続因果配列として行動を生成するスタンドアロンの自己回帰(AR)アクションエキスパートを提案する。
我々の研究は、スケーラブルでコンテキスト対応のアクション生成スキーマを導入し、効果的なロボットポリシーをトレーニングするための堅牢な構造基盤を提供します。
論文 参考訳(メタデータ) (2026-03-10T18:03:29Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - CoLA-Flow Policy: Temporally Coherent Imitation Learning via Continuous Latent Action Flow Matching for Robotic Manipulation [4.726851899243877]
LG-Flow Policyは、連続的な潜在アクション空間でフローマッチングを実行する軌道レベルの模倣学習フレームワークである。
動作シーケンスを時間的に規則化された潜在軌道に符号化し、明示的な潜在空間の流れを学習することにより、提案手法は低レベル制御ノイズからグローバルな運動構造を分離する。
論文 参考訳(メタデータ) (2026-01-30T15:36:43Z) - IAR2: Improving Autoregressive Visual Generation with Semantic-Detail Associated Token Prediction [77.06211178777939]
IAR2は、階層的なセマンティックディーテール合成プロセスを可能にする高度な自己回帰フレームワークである。
我々は、IAR2が自動回帰画像生成のための新しい最先端技術を設定し、ImageNet上で1.50のFIDを達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T12:08:21Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。