Fugu-MT 論文翻訳(概要): Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning

論文の概要: Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.08033v1
Date: Sun, 16 Jul 2023 13:04:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 16:14:30.766102
Title: Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning
Title（参考訳）: ゴールコンディション強化学習のための磁場ベースリワード整形
Authors: Hongyu Ding, Yuanze Tang, Qing Wu, Bo Wang, Chunlin Chen, Zhi Wang
Abstract要約: リワードシェーピングは、人間のドメイン知識を学習プロセスに埋め込むことで、サンプル効率を向上させるための実践的なアプローチである。本稿では,目標条件付きRLタスクの動的目標と障害物を考慮した新しい磁場型報酬整形法を提案する。シミュレーションと実世界のロボット操作の両方の実験の結果、MFRSは既存の手法よりも優れていることが示された。
参考スコア（独自算出の注目度）: 16.224372286510558
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Goal-conditioned reinforcement learning (RL) is an interesting extension of the traditional RL framework, where the dynamic environment and reward sparsity can cause conventional learning algorithms to fail. Reward shaping is a practical approach to improving sample efficiency by embedding human domain knowledge into the learning process. Existing reward shaping methods for goal-conditioned RL are typically built on distance metrics with a linear and isotropic distribution, which may fail to provide sufficient information about the ever-changing environment with high complexity. This paper proposes a novel magnetic field-based reward shaping (MFRS) method for goal-conditioned RL tasks with dynamic target and obstacles. Inspired by the physical properties of magnets, we consider the target and obstacles as permanent magnets and establish the reward function according to the intensity values of the magnetic field generated by these magnets. The nonlinear and anisotropic distribution of the magnetic field intensity can provide more accessible and conducive information about the optimization landscape, thus introducing a more sophisticated magnetic reward compared to the distance-based setting. Further, we transform our magnetic reward to the form of potential-based reward shaping by learning a secondary potential function concurrently to ensure the optimal policy invariance of our method. Experiments results in both simulated and real-world robotic manipulation tasks demonstrate that MFRS outperforms relevant existing methods and effectively improves the sample efficiency of RL algorithms in goal-conditioned tasks with various dynamics of the target and obstacles.
Abstract（参考訳）: ゴール条件強化学習(RL)は従来のRLフレームワークの興味深い拡張であり、動的環境と報酬空間が従来の学習アルゴリズムを失敗させる可能性がある。報酬形成は、人間のドメイン知識を学習プロセスに組み込むことでサンプル効率を改善するための実践的なアプローチです。目標条件付きrlに対する既存の報酬形成手法は、線形および等方性分布を持つ距離メトリクスに基づいて構築されるが、複雑で変化する環境に関する十分な情報を提供しない可能性がある。本稿では,目標条件付きRLタスクの動的目標と障害物を考慮した新しい磁場型報酬整形法を提案する。磁石の物理的性質に着想を得て, 目標と障害物を永久磁石とみなし, これらの磁石によって生じる磁場の強度値に応じて報酬関数を確立する。磁場強度の非線形および異方性分布は、最適化ランドスケープに関するよりアクセシブルで導出的な情報を提供することができ、したがって距離ベースの設定よりも洗練された磁気報酬をもたらす。さらに, 二次ポテンシャル関数を同時に学習することで, 磁気的報酬をポテンシャルに基づく報酬形成の形に変換し, 最適方針不変性を確保する。実世界のロボット操作のシミュレーション実験の結果、MFRSは既存の手法よりも優れており、目標条件付きタスクにおけるRLアルゴリズムのサンプル効率を目標と障害物の様々なダイナミクスで効果的に向上することが示された。

関連論文リスト

Training Large Language Models to Reason via EM Policy Gradient [0.27195102129094995]
LLM推論を強化するために、政治以外の強化学習アルゴリズムEM Policy Gradientを導入する。 GSM8KとMATH(HARD)データセットに対するEM Policy Gradientの有効性を評価する。本手法で微調整したモデルでは, サブプロブレム分解, 自己検証, バックトラッキングなどの認知行動を示す。
論文参考訳（メタデータ） (2025-04-24T01:31:05Z)
RadioDiff-$k^2$: Helmholtz Equation Informed Generative Diffusion Model for Multi-Path Aware Radio Map Construction [69.96295462931168]
物理インフォームド・ジェネレーティブ・ラーニング・アプローチであるRadioDiff-$bmk2$を提案する。我々は,無線伝搬に影響を与える臨界空間特性に対応するEM特異点と,ヘルムホルツ方程式の負波数で定義される領域との直接対応を確立する。
論文参考訳（メタデータ） (2025-04-22T06:28:13Z)
RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文参考訳（メタデータ） (2024-09-27T13:05:02Z)
Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation [36.308936312224404]
本稿では, FO-MBRLアルゴリズムであるAdaptive Horizon Actor-Critic (AHAC)を提案する。実験結果から,AHACはMFRLベースラインより優れており,ローコモーションタスク全体で40%以上の報酬が得られ,壁面時間効率が向上した高次元制御環境への効率なスケーリングが可能であった。
論文参考訳（メタデータ） (2024-05-28T03:28:00Z)
Neural-Kernel Conditional Mean Embeddings [26.862984140099837]
カーネル条件付き平均埋め込み(CME)は条件分布を表す強力なフレームワークを提供するが、スケーラビリティと課題に直面することが多い。本稿では,これらの課題に対処するために,ディープラーニングとCMEの強みを効果的に組み合わせた新しい手法を提案する。条件付き密度推定タスクでは、NN-CMEハイブリッドは競合性能を達成し、しばしば既存のディープラーニング手法を上回ります。
論文参考訳（メタデータ） (2024-03-16T08:51:02Z)
Leveraging Optimal Transport for Enhanced Offline Reinforcement Learning in Surgical Robotic Environments [4.2569494803130565]
我々は,少数の高品質な専門家によるデモンストレーションを用いて,オフラインの軌道に報酬を割り当てるための革新的なアルゴリズムを導入する。このアプローチは、手作りの報酬の必要性を回避し、ポリシー学習に膨大なデータセットを活用する可能性を解き放つ。
論文参考訳（メタデータ） (2023-10-13T03:39:15Z)
Self-Supervised Knowledge-Driven Deep Learning for 3D Magnetic Inversion [6.001304967469112]
提案する自己教師型知識駆動型3次元磁気インバージョン法は, インバージョンモデルとフォワードモデルの閉ループにより, 対象フィールドデータから学習する。提案した逆転モデルには知識駆動型モジュールがあり、深層学習法をより説明しやすくする。実験により,提案手法は優れた性能を有する信頼性のある磁気反転法であることが示された。
論文参考訳（メタデータ） (2023-08-23T15:31:38Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文参考訳（メタデータ） (2023-01-27T15:18:54Z)
Guaranteed Conservation of Momentum for Learning Particle-based Fluid Dynamics [96.9177297872723]
本稿では,学習物理シミュレーションにおける線形運動量を保証する新しい手法を提案する。我々は、強い制約で運動量の保存を強制し、反対称的な連続的な畳み込み層を通して実現する。提案手法により,学習シミュレータの物理的精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2022-10-12T09:12:59Z)
Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain [11.075036222901417]
そこで本研究では,実世界の実演を参考に,シミュレータの報酬関数を学習するヘテロドメインからの逆強化学習を提案する。この手法の背景にある直感は、報酬関数は専門家を模倣するだけでなく、シミュレータと現実世界のダイナミクスの違いに応じて調整された行動を奨励すべきである。
論文参考訳（メタデータ） (2021-10-21T19:23:15Z)
Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning [114.07623388322048]
本稿では,標準目標条件付きRL (GCRL) を目的変動エンパワーメントによってカプセル化する方法について論じる。我々の研究は、ゴールベースRLで表現学習技術を評価し、分析し、開発する新しい基礎を築いた。
論文参考訳（メタデータ） (2021-06-02T18:12:26Z)
Optimization-driven Deep Reinforcement Learning for Robust Beamforming in IRS-assisted Wireless Communications [54.610318402371185]
Intelligent Reflecting Surface (IRS)は、マルチアンテナアクセスポイント(AP)から受信機へのダウンリンク情報伝達を支援する有望な技術である。我々は、APのアクティブビームフォーミングとIRSのパッシブビームフォーミングを共同最適化することで、APの送信電力を最小化する。過去の経験からビームフォーミング戦略に適応できる深層強化学習(DRL)手法を提案する。
論文参考訳（メタデータ） (2020-05-25T01:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。