論文の概要: Interactive Inverse Reinforcement Learning of Interaction Scenarios via Bi-level Optimization
- arxiv url: http://arxiv.org/abs/2605.08131v1
- Date: Fri, 01 May 2026 05:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 12:34:33.729484
- Title: Interactive Inverse Reinforcement Learning of Interaction Scenarios via Bi-level Optimization
- Title(参考訳): 双方向最適化による対話シナリオの対話的逆強化学習
- Authors: Yue Mao, Shicheng Liu, Siyuan Xu, Minghui Zhu,
- Abstract要約: 逆強化学習(IRL)は、専門家のデモンストレーションデータに最も合う報酬関数と対応するポリシーを学習する。
現在のIRL設定では、学習者は専門家から隔離され、専門家のデモンストレーションのみを受動的に観察することができる。
本稿では,学習者が専門家の報酬関数と専門家と対話する方針を学習することを目的とした対話型IRL(IIRL)について検討する。
- 参考スコア(独自算出の注目度): 35.515246456075054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) learns a reward function and a corresponding policy that best fit the demonstration data of an expert. However, in the current IRL setting, the learner is isolated from the expert and can only passively observe the expert demonstrations. This limits the applicability of IRL to interactive settings, where the learner actively interacts with the expert and needs to infer the expert's reward function from the interactions. To bridge the gap, this paper studies interactive IRL (IIRL) where a learner aims to learn the reward function of an expert and a policy to interact with the expert during its interactions with the expert. We formulate IIRL as a stochastic bi-level optimization problem where the lower level learns a reward function to explain the behaviors of the expert, and the upper level learns a policy to interact with the expert. We develop a double-loop algorithm, Bi-level Interactive Scenarios Inverse Reinforcement Learning (BISIRL), which solves the lower-level problem in the inner loop and the upper-level problem in the outer loop. We formally guarantee that BISIRL converges and validate our algorithm through extensive experiments.
- Abstract(参考訳): 逆強化学習(IRL)は、専門家のデモンストレーションデータに最も合う報酬関数と対応するポリシーを学習する。
しかし、現在のIRL設定では、学習者は専門家から隔離され、専門家のデモンストレーションのみを受動的に観察することができる。
これによりIRLの適用性は制限され、学習者は専門家と積極的に対話し、専門家の報酬関数を対話から推測する必要がある。
このギャップを埋めるために,学習者が専門家の報酬関数と専門家との対話において専門家と対話する方針を学習することを目的とした対話型IRL(IIRL)について検討した。
我々は、IIRLを確率的二段階最適化問題として定式化し、下層は、専門家の振る舞いを説明するために報酬関数を学習し、上層は専門家と対話するためのポリシーを学ぶ。
両ループ型対話シナリオ逆強化学習 (BISIRL) アルゴリズムを開発し, 内ループの下位レベル問題と外ループの上位レベル問題を解く。
我々は、BISIRLが広範な実験を通じてアルゴリズムを収束し、検証することを正式に保証する。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - Agnostic Interactive Imitation Learning: New Theory and Practical Algorithms [22.703438243976876]
本研究では、対話型模倣学習について研究し、学習者がアクションアノテーションの実証的な専門家に対話的に問い合わせる。
証明可能な有限サンプル保証を備えた新しいオラクル効率アルゴリズム MFTPL-P を提案する。
論文 参考訳(メタデータ) (2023-12-28T07:05:30Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。