論文の概要: D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.13276v1
- Date: Wed, 13 May 2026 09:54:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.959793
- Title: D-VLA: A High-Concurrency Distributed Asynchronous Reinforcement Learning Framework for Vision-Language-Action Models
- Title(参考訳): D-VLA:ビジョン・ランゲージ・アクションモデルのための高速分散非同期強化学習フレームワーク
- Authors: Yucheng Guo, Yongjian Guo, Zhong Guan, Wen Huang, Haoran Sun, Haodong Yue, Xiaolong Xiang, Shuai Di, Zhen Sun, Luqiao Wang, Junwu Xiong, Yicheng Gong,
- Abstract要約: Embodied AIにより、VLA(Vision-Language-Action)モデルが、マルチモーダル認識とタスク実行に優れるようになりました。
大規模分散環境におけるこれらの大規模なモデルへの強化学習の適用は、深刻なシステム的ボトルネックに直面します。
D-VLAは,大規模エンボディベースモデルのための,高精度で低レイテンシな分散RLフレームワークである。
- 参考スコア(独自算出の注目度): 17.175523380943606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Embodied AI has enabled Vision-Language-Action (VLA) models to excel in multimodal perception and task execution. However, applying Reinforcement Learning (RL) to these massive models in large-scale distributed environments faces severe systemic bottlenecks, primarily due to the resource conflict between high-fidelity physical simulation and the intensive VRAM/bandwidth demands of deep learning. This conflict often leaves overall throughput constrained by execution-phase inefficiencies. To address these challenges, we propose D-VLA, a high-concurrency, low-latency distributed RL framework for large-scale embodied foundation models. D-VLA introduces "Plane Decoupling," physically isolating high-frequency training data from low-frequency weight control to eliminate interference between simulation and optimization. We further design a four-thread asynchronous "Swimlane" pipeline, enabling full parallel overlap of sampling, inference, gradient computation, and parameter distribution. Additionally, a dual-pool VRAM management model and topology-aware replication resolve memory fragmentation and optimize communication efficiency. Experiments on benchmarks like LIBERO show that D-VLA significantly outperforms mainstream RL frameworks in throughput and sampling efficiency for billion-parameter VLA models. In trillion-parameter scalability tests, our framework maintains exceptional stability and linear speedup, providing a robust system for high-performance general-purpose embodied agents.
- Abstract(参考訳): Embodied AIの急速な進化により、Vision-Language-Action(VLA)モデルはマルチモーダル認識とタスク実行に優れるようになりました。
しかし,大規模分散環境におけるこれらの大規模モデルへの強化学習(RL)の適用は,高忠実度物理シミュレーションと深層学習の集中的VRAM/帯域要求とのリソース衝突が主な原因として,深刻なシステム的ボトルネックに直面している。
この競合はしばしば、実行フェーズの非効率性によって制約される全体的なスループットを残します。
これらの課題に対処するために,大規模実施基盤モデルのための高精度で低レイテンシな分散RLフレームワークであるD-VLAを提案する。
D-VLAは「プランデカップリング」を導入し、低周波重み制御から高周波トレーニングデータを物理的に分離し、シミュレーションと最適化の干渉を取り除く。
さらに、4スレッドの非同期Swimlaneパイプラインを設計し、サンプリング、推論、勾配計算、パラメータ分布の完全な並列オーバーラップを可能にする。
さらに、デュアルプールVRAM管理モデルとトポロジ対応レプリケーションにより、メモリの断片化を解消し、通信効率を最適化する。
LIBEROのようなベンチマークの実験では、D-VLAは10億パラメータのVLAモデルのスループットとサンプリング効率において、メインストリームのRLフレームワークを著しく上回っている。
1兆パラメートルのスケーラビリティテストでは、我々のフレームワークは例外的な安定性と線形スピードアップを維持し、高性能汎用エンボディエージェントのための堅牢なシステムを提供する。
関連論文リスト
- OmniVLA-RL: A Vision-Language-Action Model with Spatial Understanding and Online RL [1.880672844596704]
VLA(Visual-Language-Action)モデルは、組み込みAIのパラダイムシフトを表している。
既存のフレームワークは、不正確な知覚、準最適マルチモーダル融合、強化学習における不安定性に苦慮している。
提案するOmniVLA-RLは,Mix-of-Transformers(MoT)設計を利用して推論,空間,行動の専門家を統合する新しいアーキテクチャである。
論文 参考訳(メタデータ) (2026-04-20T01:36:58Z) - STRONG-VLA: Decoupled Robustness Learning for Vision-Language-Action Models under Multimodal Perturbations [26.063335767640083]
本稿では、VLA(Vision-Language-Action)モデルのための切り離された微調整フレームワークSTRONG-VLAを提案する。
ステージIでは、モデルは困難が増す多モーダル摂動のカリキュラムに晒される。
ステージIIでは、モデルはクリーンなタスク分布と整合して、堅牢性を維持しながら実行の忠実さを回復します。
LIBEROベンチマークの実験では、STRONG-VLAは複数のVLAアーキテクチャにおけるタスク成功率を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-11T06:37:47Z) - AcceRL: A Distributed Asynchronous Reinforcement Learning and World Model Framework for Vision-Language-Action Models [21.204182133307047]
本稿では,完全に非同期で疎結合なRLフレームワークであるAceRLを提案する。
AcceRLは、プラグ&プレイ可能なトレーニング可能なワールドモデルを分散非同期RLパイプラインに統合する最初の方法である。
LIBEROciteliu2023liberoベンチマークの実験では、AceRLがSOTA(State-of-the-art)のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2026-03-19T03:50:45Z) - HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices [33.126787921005736]
現在の大きなラナウジュモデルは強い知覚と推論能力を持っている。
高い計算とメモリの要求により、デバイス上で直接デプロイすることが困難になる。
デバイス上での推論に適したマルチモーダルな大規模言語モデルであるHyperVLを紹介する。
論文 参考訳(メタデータ) (2025-12-16T03:36:41Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。
ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。
我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文 参考訳(メタデータ) (2023-10-30T16:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。