論文の概要: Hybrid-AIRL: Enhancing Inverse Reinforcement Learning with Supervised Expert Guidance
- arxiv url: http://arxiv.org/abs/2511.21356v1
- Date: Wed, 26 Nov 2025 13:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.101623
- Title: Hybrid-AIRL: Enhancing Inverse Reinforcement Learning with Supervised Expert Guidance
- Title(参考訳): Hybrid-AIRL: 専門家指導による逆強化学習の強化
- Authors: Bram Silue, Santiago Amaya-Corredor, Patrick Mannion, Lander Willem, Pieter Libin,
- Abstract要約: 逆逆強化学習(AIRL)は、強化学習(RL)におけるスパース報酬問題に対処する上で有望であることを示す。
本稿では,HULHE(Heads-Up Limit Hold'em)ポーカーを用いてAIRLの評価を行った。
- 参考スコア(独自算出の注目度): 2.0825148325175786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial Inverse Reinforcement Learning (AIRL) has shown promise in addressing the sparse reward problem in reinforcement learning (RL) by inferring dense reward functions from expert demonstrations. However, its performance in highly complex, imperfect-information settings remains largely unexplored. To explore this gap, we evaluate AIRL in the context of Heads-Up Limit Hold'em (HULHE) poker, a domain characterized by sparse, delayed rewards and significant uncertainty. In this setting, we find that AIRL struggles to infer a sufficiently informative reward function. To overcome this limitation, we contribute Hybrid-AIRL (H-AIRL), an extension that enhances reward inference and policy learning by incorporating a supervised loss derived from expert data and a stochastic regularization mechanism. We evaluate H-AIRL on a carefully selected set of Gymnasium benchmarks and the HULHE poker setting. Additionally, we analyze the learned reward function through visualization to gain deeper insights into the learning process. Our experimental results show that H-AIRL achieves higher sample efficiency and more stable learning compared to AIRL. This highlights the benefits of incorporating supervised signals into inverse RL and establishes H-AIRL as a promising framework for tackling challenging, real-world settings.
- Abstract(参考訳): 逆逆強化学習(AIRL)は、専門家によるデモンストレーションから高密度報酬関数を推定することにより、強化学習(RL)におけるスパース報酬問題に対処することを約束している。
しかし、非常に複雑で不完全な情報設定における性能はほとんど解明されていない。
このギャップを探索するため,本研究では,HULHE(Heads-Up Limit Hold'em)ポーカーを用いてAIRLを評価した。
この設定では、AIRLは十分な情報的報酬関数を推測するのに苦労している。
この制限を克服するために、専門家データと確率正則化機構から得られた教師付き損失を組み込むことで、報酬推論と政策学習を強化する拡張であるHybrid-AIRL(H-AIRL)に貢献する。
GymnasiumベンチマークとHULHEポーカー設定を用いて,H-AIRLの評価を行った。
さらに、可視化を通して学習報酬関数を分析し、学習プロセスの深い洞察を得る。
実験結果から,H-AIRLはAIRLに比べて試料効率が高く,安定した学習が可能であることが示唆された。
これは、教師付き信号を逆RLに組み込むことの利点を強調し、挑戦的で現実的な設定に対処するための有望なフレームワークとしてH-AIRLを確立する。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - RIZE: Regularized Imitation Learning via Distributional Reinforcement Learning [0.3222802562733786]
固定された報酬構造の剛性と暗黙的な報酬規則化の柔軟性を緩和する新しい逆強化学習(IRL)法を提案する。
本手法は,最大エントロピーIRLフレームワーク上に構築され,学習中に動的に進化する適応目標を持つ2乗時間差正規化器を備える。
論文 参考訳(メタデータ) (2025-02-27T13:47:29Z) - Blending Imitation and Reinforcement Learning for Robust Policy Improvement [15.46204945792257]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。