論文の概要: Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13925v1
- Date: Tue, 20 May 2025 04:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.749422
- Title: Time Reversal Symmetry for Efficient Robotic Manipulations in Deep Reinforcement Learning
- Title(参考訳): 深部強化学習における効率的なロボットマニピュレーションのための時間反転対称性
- Authors: Yunpeng Jiang, Jianshu Hu, Paul Weng, Yutong Ban,
- Abstract要約: 時間反転対称性(英: Time Reversal symmetric)は、ドアの開閉や閉鎖といったロボット工学のタスクでよく見られる時間対称性の一種である。
本稿では,時間反転対称性向上型深層強化学習(TR-DRL)を提案する。
RobosuiteベンチマークとMetaWorldベンチマークの大規模な実験は、TR-DRLがシングルタスクとマルチタスクの両方で有効であることを示した。
- 参考スコア(独自算出の注目度): 6.461129780249323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symmetry is pervasive in robotics and has been widely exploited to improve sample efficiency in deep reinforcement learning (DRL). However, existing approaches primarily focus on spatial symmetries, such as reflection, rotation, and translation, while largely neglecting temporal symmetries. To address this gap, we explore time reversal symmetry, a form of temporal symmetry commonly found in robotics tasks such as door opening and closing. We propose Time Reversal symmetry enhanced Deep Reinforcement Learning (TR-DRL), a framework that combines trajectory reversal augmentation and time reversal guided reward shaping to efficiently solve temporally symmetric tasks. Our method generates reversed transitions from fully reversible transitions, identified by a proposed dynamics-consistent filter, to augment the training data. For partially reversible transitions, we apply reward shaping to guide learning, according to successful trajectories from the reversed task. Extensive experiments on the Robosuite and MetaWorld benchmarks demonstrate that TR-DRL is effective in both single-task and multi-task settings, achieving higher sample efficiency and stronger final performance compared to baseline methods.
- Abstract(参考訳): シンメトリーはロボット工学において広く普及しており、深層強化学習(DRL)のサンプル効率向上に広く利用されている。
しかし、既存のアプローチは主に反射、回転、翻訳のような空間対称性に焦点を当てているが、時間対称性は無視されている。
このギャップに対処するために、私たちは、ドアの開閉や開閉といったロボット作業でよく見られる時間反転対称性の形式である時間反転対称性を探求する。
本稿では,時間反転対称性向上型深層強化学習(TR-DRL)を提案する。
提案手法は,提案したダイナミックス一貫性フィルタによって同定された完全可逆遷移から逆遷移を生成し,トレーニングデータを増強する。
部分的に可逆的な遷移に対しては,学習指導に報酬形成を適用する。
Robosuite と MetaWorld のベンチマークでは、TR-DRL はシングルタスクとマルチタスクの両方で有効であり、サンプル効率が高く、ベースライン法と比較して最終性能が向上している。
関連論文リスト
- Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。
正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。
そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:58:01Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z) - Symmetry Considerations for Learning Task Symmetric Robot Policies [12.856889419651521]
シンメトリーは多くの現実世界のロボットタスクの基本的な側面である。
現在の深層強化学習(DRL)アプローチは、対称性を効果的に活用することは滅多にない。
論文 参考訳(メタデータ) (2024-03-07T09:41:11Z) - An Investigation of Time Reversal Symmetry in Reinforcement Learning [18.375784421726287]
マルコフ決定過程(MDP)における時間反転対称性の概念を定式化する。
MDPにおける時間反転構造を利用することで、エージェントが経験したすべての環境遷移を、実現可能な逆時間遷移に変換することができる。
新たに合成したデータの有用性を検証するため,時間対称データ拡張(TSDA)と呼ばれる新しい手法を開発した。
論文 参考訳(メタデータ) (2023-11-28T18:02:06Z) - Symmetric Replay Training: Enhancing Sample Efficiency in Deep Reinforcement Learning for Combinatorial Optimization [42.92248233465095]
本稿では,SRT (symmetric replay training) と呼ばれる簡易かつ効果的な手法を提案する。
提案手法は,オンラインインタラクションを伴わない対称領域の探索を促進するために,高解像度サンプルを活用する。
実世界のタスクに適用した多種多様なDRL法に対して,本手法を一貫したサンプル効率向上効果を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-06-02T05:34:01Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。