論文の概要: Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
- arxiv url: http://arxiv.org/abs/2602.18025v1
- Date: Fri, 20 Feb 2026 06:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.251971
- Title: Cross-Embodiment Offline Reinforcement Learning for Heterogeneous Robot Datasets
- Title(参考訳): 不均一なロボットデータセットのためのクロス・エンボディメントオフライン強化学習
- Authors: Haruki Abe, Takayuki Osa, Yusuke Mukuta, Tatsuya Harada,
- Abstract要約: オフライン強化学習(オフラインRL)。
16の異なるロボットプラットフォームにまたがる移動データセット群を構築した。
実験により、この組み合わせによるアプローチは、最適下方軌道に富んだデータセットによる事前学習に優れ、純粋な行動クローニングよりも優れていることが確認された。
本稿では,形態的類似性によってロボットをクラスタ化し,グループ勾配でモデルを更新する,エンボディメントに基づくグループ化戦略を提案する。
- 参考スコア(独自算出の注目度): 47.55508376631633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scalable robot policy pre-training has been hindered by the high cost of collecting high-quality demonstrations for each platform. In this study, we address this issue by uniting offline reinforcement learning (offline RL) with cross-embodiment learning. Offline RL leverages both expert and abundant suboptimal data, and cross-embodiment learning aggregates heterogeneous robot trajectories across diverse morphologies to acquire universal control priors. We perform a systematic analysis of this offline RL and cross-embodiment paradigm, providing a principled understanding of its strengths and limitations. To evaluate this offline RL and cross-embodiment paradigm, we construct a suite of locomotion datasets spanning 16 distinct robot platforms. Our experiments confirm that this combined approach excels at pre-training with datasets rich in suboptimal trajectories, outperforming pure behavior cloning. However, as the proportion of suboptimal data and the number of robot types increase, we observe that conflicting gradients across morphologies begin to impede learning. To mitigate this, we introduce an embodiment-based grouping strategy in which robots are clustered by morphological similarity and the model is updated with a group gradient. This simple, static grouping substantially reduces inter-robot conflicts and outperforms existing conflict-resolution methods.
- Abstract(参考訳): スケーラブルなロボットポリシー事前学習は、各プラットフォームで高品質なデモを収集するコストが高いために妨げられている。
本研究では,オフライン強化学習(オフラインRL)とクロス・エボディメント・ラーニング(クロス・エボディメント・ラーニング)を併用することでこの問題に対処する。
オフラインRLは専門家と豊富な最適データの両方を活用し、クロス・エボディメント・ラーニングは多種多様な形態の異種ロボット軌道を集約し、普遍的な制御の優先順位を取得する。
我々は、このオフラインRLとクロス・エボディメントのパラダイムを体系的に分析し、その強みと限界を原則的に理解する。
このオフラインRLとクロスエボディメントのパラダイムを評価するために,16の異なるロボットプラットフォームにまたがる移動データセット群を構築した。
実験により, この組み合わせは, 最適軌道に富んだデータセットによる事前学習に優れ, 純粋な行動クローニングよりも優れていることを確認した。
しかし、最適なデータの割合とロボットの種類が増加するにつれて、形態学にまたがる対立する勾配が学習を妨げることが観察される。
これを軽減するために,形態的類似性によってロボットをクラスタ化し,群勾配でモデルを更新する,エンボディメントに基づくグループ化戦略を導入する。
この単純で静的なグルーピングは、ロボット間の衝突を大幅に減らし、既存のコンフリクト解決法より優れている。
関連論文リスト
- Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [79.2162092822111]
我々は,一連のナビゲーションタスクにおいて,強化学習(RL)と制御に基づく手法を体系的に評価する。
我々は、JEPA(Joint Embedding Predictive Architecture)を使用して、潜在ダイナミクスモデルを使用し、それを計画に使用します。
その結果,モデルベースプランニングではレイアウトが不明瞭になるのに対して,モデルフリーのRLは高品質なデータから恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Navigating the Human Maze: Real-Time Robot Pathfinding with Generative Imitation Learning [0.0]
目標条件付き自己回帰モデルを導入し,個人間の複雑な相互作用を捉える。
このモデルは、潜在的なロボット軌道サンプルを処理し、周囲の個人の反応を予測する。
論文 参考訳(メタデータ) (2024-08-07T14:32:41Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement Learning [82.46975428739329]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - Combining model-predictive control and predictive reinforcement learning
for stable quadrupedal robot locomotion [0.0]
モデル予測型と予測型強化型学習コントローラの組み合わせによりこれを実現できるかを検討する。
本研究では,両制御手法を組み合わせて,四足歩行ロボットの安定ゲート生成問題に対処する。
論文 参考訳(メタデータ) (2023-07-15T09:22:37Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Multi-Robot Deep Reinforcement Learning for Mobile Navigation [82.62621210336881]
階層的統合モデル(HInt)を用いた深層強化学習アルゴリズムを提案する。
トレーニング時には、HIntは別々の知覚モデルとダイナミクスモデルを学び、テスト時には、HIntは2つのモデルを階層的な方法で統合し、統合モデルとアクションを計画する。
我々のモバイルナビゲーション実験は、HIntが従来の階層的ポリシーや単一ソースアプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2021-06-24T19:07:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。