Fugu-MT 論文翻訳(概要): Weighted Maximum Entropy Inverse Reinforcement Learning

論文の概要: Weighted Maximum Entropy Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.09611v1
Date: Sat, 20 Aug 2022 06:02:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 13:47:42.284813
Title: Weighted Maximum Entropy Inverse Reinforcement Learning
Title（参考訳）: 重み付き最大エントロピー逆強化学習
Authors: The Viet Bui, Tien Mai, Patrick Jaillet
Abstract要約: 逆強化学習(IRL)と模倣学習(IM)について検討する。エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
参考スコア（独自算出の注目度）: 22.269565708490468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study inverse reinforcement learning (IRL) and imitation learning (IM), the problems of recovering a reward or policy function from expert's demonstrated trajectories. We propose a new way to improve the learning process by adding a weight function to the maximum entropy framework, with the motivation of having the ability to learn and recover the stochasticity (or the bounded rationality) of the expert policy. Our framework and algorithms allow to learn both a reward (or policy) function and the structure of the entropy terms added to the Markov Decision Processes, thus enhancing the learning procedure. Our numerical experiments using human and simulated demonstrations and with discrete and continuous IRL/IM tasks show that our approach outperforms prior algorithms.
Abstract（参考訳）: 逆強化学習 (IRL) と模倣学習 (IM) について検討し, 専門家の実証軌道から報酬や政策機能を回復する問題について考察した。本稿では, 最大エントロピー枠組みに重み関数を付加し, 専門家政策の確率性(あるいは有界合理性)を学習し, 回復する能力を有することによって, 学習プロセスを改善する新しい方法を提案する。我々のフレームワークとアルゴリズムは、報酬(あるいはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学習することができ、学習手順が強化される。ヒトとシミュレートされた実演と離散的かつ連続的なIRL/IMタスクを用いた数値実験により,本手法が先行アルゴリズムより優れていることを示す。

関連論文リスト

RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬の割り当ての制限を克服する新しい逆強化学習(IRL)手法を導入する。最大エントロピーIRLフレームワークを2乗時間差正規化器(TD)と適応目標で拡張し、トレーニング中に動的に調整する。提案手法は,MuJoCoタスクに挑戦する上での最先端のパフォーマンスを実現し,Humanoidタスクのエキスパートレベルを3つのデモで示す。
論文参考訳（メタデータ） (2025-02-27T13:47:29Z)
Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文参考訳（メタデータ） (2025-01-13T16:13:22Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
A Model-Based Approach for Improving Reinforcement Learning Efficiency Leveraging Expert Observations [9.240917262195046]
本稿では,拡張損失関数における各成分の重みを自動的に調整するアルゴリズムを提案する。様々な連続制御タスクの実験は、提案アルゴリズムが様々なベンチマークより優れていることを示した。
論文参考訳（メタデータ） (2024-02-29T03:53:02Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
On Reward Structures of Markov Decision Processes [4.13365552362244]
マルコフ決定過程は、遷移カーネルと報酬関数によってパラメータ化することができる。ロボット応用の需要に触発された強化学習に関連する様々な「コスト」について検討する。単一状態値を推定するためのインスタンス固有のエラーを$tildeO(sqrtfractau_sn)$にバインドした新しい推定器を開発する。
論文参考訳（メタデータ） (2023-08-28T22:29:16Z)
Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文参考訳（メタデータ） (2022-10-03T07:59:42Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文参考訳（メタデータ） (2022-01-27T19:51:09Z)
Weighted Entropy Modification for Soft Actor-Critic [95.37322316673617]
我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
論文参考訳（メタデータ） (2020-11-18T04:36:03Z)
f-IRL: Inverse Reinforcement Learning via State Marginal Matching [13.100127636586317]
本稿では,エキスパート状態密度に適合する報酬関数(およびそれに対応するポリシー)を学習する手法を提案する。本稿では, 勾配勾配勾配から定常報酬関数を復元するアルゴリズムf-IRLを提案する。提案手法は, サンプル効率と専門トラジェクトリの要求数の観点から, 対向的模倣学習法より優れる。
論文参考訳（メタデータ） (2020-11-09T19:37:48Z)
Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-15T16:41:00Z)
Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-07-02T14:57:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。