論文の概要: Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2307.08033v1
- Date: Sun, 16 Jul 2023 13:04:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 16:14:30.766102
- Title: Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement
Learning
- Title(参考訳): ゴールコンディション強化学習のための磁場ベースリワード整形
- Authors: Hongyu Ding, Yuanze Tang, Qing Wu, Bo Wang, Chunlin Chen, Zhi Wang
- Abstract要約: リワードシェーピングは、人間のドメイン知識を学習プロセスに埋め込むことで、サンプル効率を向上させるための実践的なアプローチである。
本稿では,目標条件付きRLタスクの動的目標と障害物を考慮した新しい磁場型報酬整形法を提案する。
シミュレーションと実世界のロボット操作の両方の実験の結果、MFRSは既存の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 16.224372286510558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Goal-conditioned reinforcement learning (RL) is an interesting extension of
the traditional RL framework, where the dynamic environment and reward sparsity
can cause conventional learning algorithms to fail. Reward shaping is a
practical approach to improving sample efficiency by embedding human domain
knowledge into the learning process. Existing reward shaping methods for
goal-conditioned RL are typically built on distance metrics with a linear and
isotropic distribution, which may fail to provide sufficient information about
the ever-changing environment with high complexity. This paper proposes a novel
magnetic field-based reward shaping (MFRS) method for goal-conditioned RL tasks
with dynamic target and obstacles. Inspired by the physical properties of
magnets, we consider the target and obstacles as permanent magnets and
establish the reward function according to the intensity values of the magnetic
field generated by these magnets. The nonlinear and anisotropic distribution of
the magnetic field intensity can provide more accessible and conducive
information about the optimization landscape, thus introducing a more
sophisticated magnetic reward compared to the distance-based setting. Further,
we transform our magnetic reward to the form of potential-based reward shaping
by learning a secondary potential function concurrently to ensure the optimal
policy invariance of our method. Experiments results in both simulated and
real-world robotic manipulation tasks demonstrate that MFRS outperforms
relevant existing methods and effectively improves the sample efficiency of RL
algorithms in goal-conditioned tasks with various dynamics of the target and
obstacles.
- Abstract(参考訳): ゴール条件強化学習(RL)は従来のRLフレームワークの興味深い拡張であり、動的環境と報酬空間が従来の学習アルゴリズムを失敗させる可能性がある。
報酬形成は、人間のドメイン知識を学習プロセスに組み込むことでサンプル効率を改善するための実践的なアプローチです。
目標条件付きrlに対する既存の報酬形成手法は、線形および等方性分布を持つ距離メトリクスに基づいて構築されるが、複雑で変化する環境に関する十分な情報を提供しない可能性がある。
本稿では,目標条件付きRLタスクの動的目標と障害物を考慮した新しい磁場型報酬整形法を提案する。
磁石の物理的性質に着想を得て, 目標と障害物を永久磁石とみなし, これらの磁石によって生じる磁場の強度値に応じて報酬関数を確立する。
磁場強度の非線形および異方性分布は、最適化ランドスケープに関するよりアクセシブルで導出的な情報を提供することができ、したがって距離ベースの設定よりも洗練された磁気報酬をもたらす。
さらに, 二次ポテンシャル関数を同時に学習することで, 磁気的報酬をポテンシャルに基づく報酬形成の形に変換し, 最適方針不変性を確保する。
実世界のロボット操作のシミュレーション実験の結果、MFRSは既存の手法よりも優れており、目標条件付きタスクにおけるRLアルゴリズムのサンプル効率を目標と障害物の様々なダイナミクスで効果的に向上することが示された。
関連論文リスト
- Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。
実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文 参考訳(メタデータ) (2024-05-28T03:28:00Z) - Neural-Kernel Conditional Mean Embeddings [26.862984140099837]
カーネル条件付き平均埋め込み(CME)は条件分布を表す強力なフレームワークを提供するが、スケーラビリティと課題に直面することが多い。
本稿では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。
条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。
論文 参考訳(メタデータ) (2024-03-16T08:51:02Z) - Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning
in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。
このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文 参考訳(メタデータ) (2023-10-13T03:39:15Z) - Self-Supervised Knowledge-Driven Deep Learning for 3D Magnetic Inversion [6.001304967469112]
提案する自己教師型知識駆動型3次元磁気インバージョン法は, インバージョンモデルとフォワードモデルの閉ループにより, 対象フィールドデータから学習する。
提案した逆転モデルには知識駆動型モジュールがあり、深層学習法をより説明しやすくする。
実験により,提案手法は優れた性能を有する信頼性のある磁気反転法であることが示された。
論文 参考訳(メタデータ) (2023-08-23T15:31:38Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Guaranteed Conservation of Momentum for Learning Particle-based Fluid
Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。
我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。
提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-10-12T09:12:59Z) - Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。
この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文 参考訳(メタデータ) (2021-10-21T19:23:15Z) - Variational Empowerment as Representation Learning for Goal-Based
Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。
我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文 参考訳(メタデータ) (2021-06-02T18:12:26Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Optimization-driven Deep Reinforcement Learning for Robust Beamforming
in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。
我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。
過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T01:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。