論文の概要: RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI
- arxiv url: http://arxiv.org/abs/2602.07837v3
- Date: Thu, 12 Feb 2026 08:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.260004
- Title: RLinf-USER: A Unified and Extensible System for Real-World Online Policy Learning in Embodied AI
- Title(参考訳): RLinf-USER: 身近なAIにおけるリアルタイムオンライン政策学習のための統一的で拡張可能なシステム
- Authors: Hongzhi Zang, Shu'ang Yu, Hao Lin, Tianxing Zhou, Zefang Huang, Zhen Guo, Xin Xu, Jiakai Zhou, Yuze Sheng, Shizhe Zhang, Feng Gao, Wenhao Tang, Yufeng Yue, Quanlu Zhang, Xinlei Chen, Chao Yu, Yu Wang,
- Abstract要約: 我々は,現実のオンライン政策学習のための統一およびシストEmであるUSERを紹介する。
UERは,複数ロボットの協調,異種マニピュレータ,大規模モデルとのエッジクラウドコラボレーション,長時間の非同期トレーニングを可能にしている。
シミュレーションと実世界の両方で、USERはCNN/MLPのオンライン模倣や強化学習、生成ポリシー、および統合パイプライン内での大規模ビジョンアクション(VLA)モデルを可能にしている。
- 参考スコア(独自算出の注目度): 44.06975079994439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Online policy learning directly in the physical world is a promising yet challenging direction for embodied intelligence. Unlike simulation, real-world systems cannot be arbitrarily accelerated, cheaply reset, or massively replicated, which makes scalable data collection, heterogeneous deployment, and long-horizon effective training difficult. These challenges suggest that real-world policy learning is not only an algorithmic issue but fundamentally a systems problem. We present USER, a Unified and extensible SystEm for Real-world online policy learning. USER treats physical robots as first-class hardware resources alongside GPUs through a unified hardware abstraction layer, enabling automatic discovery, management, and scheduling of heterogeneous robots. To address cloud-edge communication, USER introduces an adaptive communication plane with tunneling-based networking, distributed data channels for traffic localization, and streaming-multiprocessor-aware weight synchronization to regulate GPU-side overhead. On top of this infrastructure, USER organizes learning as a fully asynchronous framework with a persistent, cache-aware buffer, enabling efficient long-horizon experiments with robust crash recovery and reuse of historical data. In addition, USER provides extensible abstractions for rewards, algorithms, and policies, supporting online imitation or reinforcement learning of CNN/MLP, generative policies, and large vision-language-action (VLA) models within a unified pipeline. Results in both simulation and the real world show that USER enables multi-robot coordination, heterogeneous manipulators, edge-cloud collaboration with large models, and long-running asynchronous training, offering a unified and extensible systems foundation for real-world online policy learning.
- Abstract(参考訳): 物理的な世界でのオンライン政策学習は、インテリジェンスを具現化する上で、有望だが挑戦的な方向である。
シミュレーションとは異なり、現実世界のシステムは任意に加速したり、安価にリセットしたり、大規模に複製したりすることはできず、スケーラブルなデータ収集、異種展開、長期の効果的なトレーニングが困難になる。
これらの課題は、現実世界の政策学習がアルゴリズムの問題であるだけでなく、基本的にシステムの問題であることを示している。
実世界のオンライン政策学習のための統一・拡張可能なSystEmであるUSERを提示する。
USERは、物理ロボットをGPUとともに、統一されたハードウェア抽象化層を通じて第一級ハードウェアリソースとして扱い、異種ロボットの自動発見、管理、スケジューリングを可能にする。
クラウドエッジ通信に対処するため、USERはトンネルベースのネットワーク、トラフィックローカライゼーションのための分散データチャネル、GPU側のオーバーヘッドを制御するためのストリーミングマルチプロセッサ対応の重み同期を備えた適応通信プレーンを導入した。
このインフラストラクチャの上に、USERは、永続的でキャッシュ対応のバッファを備えた完全な非同期フレームワークとして学習を組織し、堅牢なクラッシュ回復と履歴データの再利用による効率的な長期実験を可能にする。
さらに、USERは報酬、アルゴリズム、ポリシーの拡張可能な抽象化、CNN/MLPのオンライン模倣や強化学習のサポート、生成ポリシー、統合パイプライン内の大規模な視覚言語アクション(VLA)モデルを提供する。
シミュレーションと実世界の両方で、USERはマルチロボット調整、異種マニピュレータ、大規模モデルとのエッジクラウドコラボレーション、長時間の非同期トレーニングを可能にし、現実のオンラインポリシー学習のための統一的で拡張可能なシステム基盤を提供する。
関連論文リスト
- End-to-end example-based sim-to-real RL policy transfer based on neural stylisation with application to robotic cutting [3.398964351541323]
そこで本研究では,強化学習政策のシミュレートから現実への移行手法を提案する。
スタイル転送のための自己教師付き特徴表現を共同学習するために,変分オートエンコーダを用いる。
本稿では,未知素材のロボット切断を事例として,本手法の適用例を示す。
論文 参考訳(メタデータ) (2026-01-28T18:45:55Z) - Federated Learning Framework for Scalable AI in Heterogeneous HPC and Cloud Environments [0.1805840413757548]
我々は、HPCとクラウドの混在する環境を効率的に動かすために構築された連合学習フレームワークを提案する。
本システムは,モデル精度とデータプライバシを維持しつつ,システムヘット・エロジニティ,通信オーバーヘッド,リソーススケジューリングといった重要な課題に対処する。
論文 参考訳(メタデータ) (2025-11-22T18:39:25Z) - Watch and Learn: Learning to Use Computers from Online Videos [50.10702690339142]
Watch & Learn(W&L)は、インターネット上で簡単に利用できる人間のデモビデオを、大規模に実行可能なUIトラジェクトリに変換するフレームワークである。
我々は,タスク対応ビデオ検索を用いた逆動的ラベリングパイプラインを開発し,生のウェブビデオから53k以上の高品質なトラジェクトリを生成する。
これらの結果から,実世界展開に向けたCUAの実践的かつスケーラブルな基盤として,Webスケールの人間デモビデオが注目されている。
論文 参考訳(メタデータ) (2025-10-06T10:29:00Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - RIS-empowered Topology Control for Distributed Learning in Urban Air
Mobility [35.04722426910211]
アーバン・エアモビリティ(UAM)は、輸送システムの革命として想定される、地上から地上に近い空間に車両を拡大する。
この課題を克服するために、リソース制限されたデバイスが協調的に深層学習(DL)を行うことを可能にするために、フェデレーション・ラーニング(FL)や他の協調学習が提案されている。
本稿では,分散学習を支援する再構成可能なインテリジェントサーフェス (RIS) について検討する。
論文 参考訳(メタデータ) (2024-03-08T08:05:50Z) - Benchmarking Offline Reinforcement Learning on Real-Robot Hardware [35.29390454207064]
特にデクサラスな操作は、その一般的な形式において未解決の問題である。
本稿では,2つのタスク上の厳密な操作プラットフォームからオフライン学習のための大量のデータを含むベンチマークを提案する。
実システム上でのオフライン強化学習のための再現可能な実験的なセットアップを提供する。
論文 参考訳(メタデータ) (2023-07-28T17:29:49Z) - Cloud-Edge Training Architecture for Sim-to-Real Deep Reinforcement
Learning [0.8399688944263843]
深層強化学習(DRL)は、環境との相互作用を通じてポリシーを学習することで複雑な制御課題を解決するための有望な手法である。
Sim-to-realアプローチはシミュレーションを利用してDRLポリシーを事前訓練し、現実世界にデプロイする。
本研究では,リアルタイムにDRLエージェントをトレーニングするための分散クラウドエッジアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-04T10:27:01Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。