論文の概要: TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control
- arxiv url: http://arxiv.org/abs/2502.17322v1
- Date: Mon, 24 Feb 2025 16:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:01.617891
- Title: TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control
- Title(参考訳): TDMPBC:ヒューマノイドロボット制御のための自己免疫強化学習
- Authors: Zifeng Zhuang, Diyuan Shi, Runze Suo, Xiao He, Hongyin Zhang, Ting Wang, Shangke Lyu, Donglin Wang,
- Abstract要約: 一般に、複素高次元空間におけるタスクを達成するための実現可能な領域は極端に狭くなっている。
本稿では,タスク関連トラジェクトリをRLアルゴリズムで模倣した$textbfS$elf-$textbfI$mitative $textbfR$einforcementを提案する。
提案アルゴリズムは,HumanoidBenchを5%余分な計算オーバヘッドで120%の性能向上を実現している。
- 参考スコア(独自算出の注目度): 26.93901849666341
- License:
- Abstract: Complex high-dimensional spaces with high Degree-of-Freedom and complicated action spaces, such as humanoid robots equipped with dexterous hands, pose significant challenges for reinforcement learning (RL) algorithms, which need to wisely balance exploration and exploitation under limited sample budgets. In general, feasible regions for accomplishing tasks within complex high-dimensional spaces are exceedingly narrow. For instance, in the context of humanoid robot motion control, the vast majority of space corresponds to falling, while only a minuscule fraction corresponds to standing upright, which is conducive to the completion of downstream tasks. Once the robot explores into a potentially task-relevant region, it should place greater emphasis on the data within that region. Building on this insight, we propose the $\textbf{S}$elf-$\textbf{I}$mitative $\textbf{R}$einforcement $\textbf{L}$earning ($\textbf{SIRL}$) framework, where the RL algorithm also imitates potentially task-relevant trajectories. Specifically, trajectory return is utilized to determine its relevance to the task and an additional behavior cloning is adopted whose weight is dynamically adjusted based on the trajectory return. As a result, our proposed algorithm achieves 120% performance improvement on the challenging HumanoidBench with 5% extra computation overhead. With further visualization, we find the significant performance gain does lead to meaningful behavior improvement that several tasks are solved successfully.
- Abstract(参考訳): 器用な手を備えたヒューマノイドロボットのような高自由度で複雑な行動空間を持つ複雑な高次元空間は、限られたサンプル予算下での探索と搾取の賢明なバランスを必要とする強化学習(RL)アルゴリズムに重大な課題を提起する。
一般に、複素高次元空間におけるタスクを達成するための実現可能な領域は極端に狭くなっている。
例えば、ヒューマノイドロボットの動作制御の文脈では、ほとんどの空間は落下に対応するが、極小部分だけが直立する。
ロボットが潜在的なタスク関連領域を探索したら、その領域内のデータにもっと重点を置くべきである。
この知見に基づいて、RLアルゴリズムは潜在的タスク関連トラジェクトリを模倣する$\textbf{S}$elf-$\textbf{I}$mitative $\textbf{R}$einforcement $\textbf{L}$earning$\textbf{SIRL}$)フレームワークを提案する。
具体的には、トラジェクトリリターンを用いてタスクの関連性を決定するとともに、トラジェクトリリターンに基づいてウェイトを動的に調整した追加の行動クローニングを採用する。
その結果,HumanoidBenchでは計算オーバーヘッドが5%増加し,性能が120%向上した。
さらに視覚化することで、パフォーマンスの大幅な向上は、いくつかのタスクがうまく解決される有意義な振る舞い改善につながることが分かりました。
関連論文リスト
- Grammarization-Based Grasping with Deep Multi-Autoencoder Latent Space Exploration by Reinforcement Learning Agent [0.0]
本稿では,高次元の目標とグリップの特徴を圧縮するアイデアに基づく,ロボットグルーピングのための新しいフレームワークを提案する。
提案手法は,対象とグリップに専用の3つのオートエンコーダと,その潜在表現を融合させる第3のオートエンコーダを用いて,把握を簡略化する。
論文 参考訳(メタデータ) (2024-11-13T12:26:08Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - DC-MRTA: Decentralized Multi-Robot Task Allocation and Navigation in
Complex Environments [55.204450019073036]
本稿では,倉庫環境における移動ロボットのためのタスク割り当てと分散ナビゲーションアルゴリズムを提案する。
本稿では,共同分散タスク割り当てとナビゲーションの問題について考察し,それを解決するための2段階のアプローチを提案する。
ロボットの衝突のない軌道の計算では,タスク完了時間において最大14%の改善と最大40%の改善が観察される。
論文 参考訳(メタデータ) (2022-09-07T00:35:27Z) - Overcoming Exploration: Deep Reinforcement Learning in Complex
Environments from Temporal Logic Specifications [2.8904578737516764]
本稿では,大規模複雑な環境に展開する未知の連続時間ダイナミクスを有するタスク誘導型ロボットのためのDeep Reinforcement Learning (DRL)アルゴリズムを提案する。
本フレームワークは,大規模複雑な環境下での複雑なミッションをこなすロボットの性能(有効性,効率)を著しく向上させる。
論文 参考訳(メタデータ) (2022-01-28T16:39:08Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Weakly-Supervised Reinforcement Learning for Controllable Behavior [126.04932929741538]
強化学習(Reinforcement Learning、RL)は、タスクを解決するために行動を取るための学習のための強力なフレームワークである。
多くの設定において、エージェントは、現在解決するよう求められている単一のタスクに対して、不可能なほど大きなタスク空間を放棄しなければならない。
我々は,この意味論的意味のあるタスクのサブスペースを,非意味的な「チャフ」タスクの巨大な空間から自動的に切り離すために,弱い監督を利用するフレームワークを導入する。
論文 参考訳(メタデータ) (2020-04-06T17:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。