論文の概要: Maximum Entropy Semi-Supervised Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.20074v1
- Date: Wed, 22 Apr 2026 00:44:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.891893
- Title: Maximum Entropy Semi-Supervised Inverse Reinforcement Learning
- Title(参考訳): 半教師付き逆強化学習の最大エントロピー
- Authors: Julien Audiffren, Michal Valko, Alessandro Lazaric, Mohammad Ghavamzadeh,
- Abstract要約: 徒弟教育(AL)に対する一般的なアプローチは、逆強化学習(IRL)問題として定式化することである。
本稿では,専門家の軌跡に加え,教師なし軌跡が多数存在するAL設定について検討する。
我々は、MaxEnt-IRLと半教師付き学習の原理を組み合わせた新しいアルゴリズムであるMESSIを紹介する。
- 参考スコア(独自算出の注目度): 75.1335979401866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A popular approach to apprenticeship learning (AL) is to formulate it as an inverse reinforcement learning (IRL) problem. The MaxEnt-IRL algorithm successfully integrates the maximum entropy principle into IRL and unlike its predecessors, it resolves the ambiguity arising from the fact that a possibly large number of policies could match the expert's behavior. In this paper, we study an AL setting in which in addition to the expert's trajectories, a number of unsupervised trajectories is available. We introduce MESSI, a novel algorithm that combines MaxEnt-IRL with principles coming from semi-supervised learning. In particular, MESSI integrates the unsupervised data into the MaxEnt-IRL framework using a pairwise penalty on trajectories. Empirical results in a highway driving and grid-world problems indicate that MESSI is able to take advantage of the unsupervised trajectories and improve the performance of MaxEnt-IRL.
- Abstract(参考訳): 徒弟教育(AL)に対する一般的なアプローチは、逆強化学習(IRL)問題として定式化することである。
MaxEnt-IRLアルゴリズムは、最大エントロピー原理をIRLに統合することに成功し、それ以前のアルゴリズムとは異なり、潜在的に多くのポリシーが専門家の行動にマッチするという事実から生じる曖昧さを解消する。
本稿では,専門家の軌跡に加えて,多数の教師なし軌跡が利用できるAL設定について検討する。
我々は、MaxEnt-IRLと半教師付き学習の原理を組み合わせた新しいアルゴリズムであるMESSIを紹介する。
特にMESSIは、教師なしデータをMaxEnt-IRLフレームワークに統合する。
高速道路の走行とグリッドワールドの問題による実証的な結果から、メッシは教師なし軌道の利点を生かし、MaxEnt-IRLの性能を向上させることができることが示された。
関連論文リスト
- Can Optimal Transport Improve Federated Inverse Reinforcement Learning? [5.927569454272587]
本稿では、連邦逆強化学習(IRL)における最適輸送に基づくアプローチを提案する。
我々は,この偏心融合が,連合学習における従来のパラメータ平均化手法よりも,より忠実なグローバル報酬推定をもたらすことを証明した。
全体として、この研究は、異種エージェントや環境をまたいで一般化する共有報酬を導出するための、原則的でコミュニケーション効率のよいフレームワークを提供する。
論文 参考訳(メタデータ) (2026-01-01T11:13:34Z) - Is Inverse Reinforcement Learning Harder than Standard Reinforcement
Learning? A Theoretical Perspective [55.36819597141271]
逆強化学習(IRL: Inverse Reinforcement Learning)は、インテリジェントシステム開発において重要な役割を担う。
本稿では、サンプルとランタイムを用いて、バニラのオフラインおよびオンライン設定における効率的なIRLの最初のラインを提供する。
応用として、学習した報酬は適切な保証で他のターゲットMDPに転送可能であることを示す。
論文 参考訳(メタデータ) (2023-11-29T00:09:01Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - A Primer on Maximum Causal Entropy Inverse Reinforcement Learning [5.660207256468973]
逆強化学習(IRL: Inverse Reinforcement Learning)アルゴリズムは、環境の専門家によって提供される実演を説明する報酬関数を推論する。
本チュートリアルでは、MCE IRLの圧縮導出と、MCE IRLアルゴリズムの現代実装による重要な結果について述べる。
論文 参考訳(メタデータ) (2022-03-22T01:27:26Z) - Revisiting Maximum Entropy Inverse Reinforcement Learning: New
Perspectives and Algorithms [5.1779694507922835]
与えられた専門家のデモンストレーションと一致した最も非コミット報酬関数を求めるための原理的手法を提案する。
我々のアルゴリズムは、ドライバーの行動予測を含む大規模な実世界のデータセットまでスケールする。
論文 参考訳(メタデータ) (2020-12-01T23:28:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。