論文の概要: A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations
- arxiv url: http://arxiv.org/abs/2402.18836v1
- Date: Thu, 29 Feb 2024 03:53:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:13:13.710988
- Title: A Model-Based Approach for Improving Reinforcement Learning Efficiency
Leveraging Expert Observations
- Title(参考訳): エキスパート観察を活用した強化学習効率向上のためのモデルベースアプローチ
- Authors: Erhan Can Ozcan, Vittorio Giammarino, James Queeney, Ioannis Ch.
Paschalidis
- Abstract要約: 本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
- 参考スコア(独自算出の注目度): 9.240917262195046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates how to incorporate expert observations (without
explicit information on expert actions) into a deep reinforcement learning
setting to improve sample efficiency. First, we formulate an augmented policy
loss combining a maximum entropy reinforcement learning objective with a
behavioral cloning loss that leverages a forward dynamics model. Then, we
propose an algorithm that automatically adjusts the weights of each component
in the augmented loss function. Experiments on a variety of continuous control
tasks demonstrate that the proposed algorithm outperforms various benchmarks by
effectively utilizing available expert observations.
- Abstract(参考訳): 本稿では,専門家の観察を(専門家の行動に関する明確な情報なしで)深層強化学習環境に組み込んで,サンプル効率を向上させる方法について検討する。
まず, 最大エントロピー強化学習目標と, フォワードダイナミクスモデルを活用した行動クローニング損失を組み合わせた拡張ポリシー損失を定式化する。
そこで我々は,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。
様々な連続制御タスクにおける実験により,提案手法が利用可能な専門家観測を効果的に活用することにより,様々なベンチマークを上回ることを示す。
関連論文リスト
- Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [10.142949909263846]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Sharing Knowledge in Multi-Task Deep Reinforcement Learning [57.38874587065694]
マルチタスク強化学習において、ディープニューラルネットワークを効果的に活用するためのタスク間の表現の共有の利点について検討する。
我々は,タスク間で表現を共有するのに便利な条件を強調する理論的保証を提供することで,これを証明している。
論文 参考訳(メタデータ) (2024-01-17T19:31:21Z) - An Integrative Paradigm for Enhanced Stroke Prediction: Synergizing
XGBoost and xDeepFM Algorithms [1.064427783926208]
本稿では,XGBoostとxDeepFMアルゴリズムのパワーを組み合わせたアンサンブルモデルを提案する。
本研究の目的は,既存のストローク予測モデルの改良であり,精度とロバスト性の向上である。
論文 参考訳(メタデータ) (2023-10-25T07:55:02Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Autonomous Learning of Features for Control: Experiments with Embodied
and Situated Agents [0.0]
本稿では,ポリシネットワークのトレーニング中に特徴抽出モジュールのトレーニングを継続する手法を提案する。
シーケンス・ツー・シークエンス・ラーニング(Sequence-to-Sequence Learning)は,従来の研究方法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-09-15T14:34:42Z) - Spectrum-Guided Adversarial Disparity Learning [52.293230153385124]
本稿では,新たなエンド・ツー・エンドの知識指向学習フレームワークを提案する。
2つの競合符号化分布を用いてクラス条件付きクラス内不一致を表現し、学習された不一致を識別することで精製された潜伏符号を学習する。
4つのHARベンチマークデータセットに対する実験により,提案手法の頑健性と,最先端の手法による一般化が実証された。
論文 参考訳(メタデータ) (2020-07-14T05:46:27Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。