論文の概要: Going Beyond Expert Performance via Deep Implicit Imitation Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.03616v1
- Date: Wed, 05 Nov 2025 16:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.486978
- Title: Going Beyond Expert Performance via Deep Implicit Imitation Reinforcement Learning
- Title(参考訳): Deep Implicitimitation Reinforcement Learningによるエキスパートのパフォーマンス以上のもの
- Authors: Iason Chrysomallis, Georgios Chalkiadakis,
- Abstract要約: 本研究では、深層強化学習と観測専用データセットからの暗黙的模倣学習を組み合わせた暗黙的模倣強化学習フレームワークを提案する。
我々の主要なアルゴリズムであるDeep Implicit Q-Network (DIIQN)は、オンライン探索を通じて専門家の行動を再構築するアクション推論機構を採用している。
我々はさらに、専門家とエージェントが異なるアクションセットを持つシナリオに取り組むために、不均一なアクションDIIQN(HA-DIIQN)アルゴリズムでフレームワークを拡張した。
- 参考スコア(独自算出の注目度): 3.691573844585973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning traditionally requires complete state-action demonstrations from optimal or near-optimal experts. These requirements severely limit practical applicability, as many real-world scenarios provide only state observations without corresponding actions and expert performance is often suboptimal. In this paper we introduce a deep implicit imitation reinforcement learning framework that addresses both limitations by combining deep reinforcement learning with implicit imitation learning from observation-only datasets. Our main algorithm, Deep Implicit Imitation Q-Network (DIIQN), employs an action inference mechanism that reconstructs expert actions through online exploration and integrates a dynamic confidence mechanism that adaptively balances expert-guided and self-directed learning. This enables the agent to leverage expert guidance for accelerated training while maintaining capacity to surpass suboptimal expert performance. We further extend our framework with a Heterogeneous Actions DIIQN (HA-DIIQN) algorithm to tackle scenarios where expert and agent possess different action sets, a challenge previously unaddressed in the implicit imitation learning literature. HA-DIIQN introduces an infeasibility detection mechanism and a bridging procedure identifying alternative pathways connecting agent capabilities to expert guidance when direct action replication is impossible. Our experimental results demonstrate that DIIQN achieves up to 130% higher episodic returns compared to standard DQN, while consistently outperforming existing implicit imitation methods that cannot exceed expert performance. In heterogeneous action settings, HA-DIIQN learns up to 64% faster than baselines, leveraging expert datasets unusable by conventional approaches. Extensive parameter sensitivity analysis reveals the framework's robustness across varying dataset sizes and hyperparameter configurations.
- Abstract(参考訳): 伝統的に模倣学習は、最適または準最適の専門家による完全な状態行動のデモンストレーションを必要とする。
これらの要件は、多くの実世界のシナリオが対応するアクションを伴わずに状態観察のみを提供し、専門家のパフォーマンスが最適でない場合が多いため、実用性を大幅に制限する。
本稿では、深い強化学習と観測専用データセットからの暗黙的模倣学習を組み合わせることで、両方の制約に対処する深い暗黙的模倣強化学習フレームワークを提案する。
我々の主要なアルゴリズムであるDeep Implicit Imitation Q-Network (DIIQN)は、オンライン探索を通じて専門家の行動を再構築するアクション推論機構を採用し、専門家指導と自己指導の学習を適応的にバランスさせる動的信頼メカニズムを統合する。
これにより、エージェントは、準最適専門家のパフォーマンスを超える能力を維持しながら、訓練を加速するために専門家の指導を利用することができる。
我々はさらに、専門家とエージェントが異なるアクションセットを持つシナリオに取り組むために、不均一なアクションDIIQN(HA-DIIQN)アルゴリズムで我々のフレームワークを拡張した。
HA-DIIQNは、直接の動作複製が不可能な場合に、専門家のガイダンスにエージェント機能を接続する代替経路を識別する機能検出機構とブリッジ手順を導入する。
実験結果から,DIIQNは従来のDQNに比べて最大130%高いエピソジックリターンを達成できるが,既存の暗黙の模倣手法では専門家のパフォーマンスを上回り得ない。
不均一なアクション設定では、HA-DIIQNはベースラインよりも最大64%高速に学習し、従来のアプローチでは使用できない専門家データセットを活用する。
広範囲なパラメータ感度分析により、さまざまなデータセットサイズとハイパーパラメータ構成にまたがる、フレームワークの堅牢性を明らかにする。
関連論文リスト
- Selective Expert Guidance for Effective and Diverse Exploration in Reinforcement Learning of LLMs [49.72591739116668]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力を高める手法として広く採用されている。
既存の手法は、有効性を向上するが多様性を無視する専門家の軌跡を模倣することでこの問題に対処する。
共振器のトーケンレベル最適化のための混合政治エキスパートナビゲーション MENTORを提案する。
論文 参考訳(メタデータ) (2025-10-05T10:38:55Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Offline Imitation Learning with Model-based Reverse Augmentation [48.64791438847236]
本稿では,自己ペースの逆拡張によるオフラインImitation Learningという,新しいモデルベースフレームワークを提案する。
具体的には、オフラインのデモからリバース・ダイナミック・モデルを構築し、専門家が観察した状態につながる軌道を効率的に生成する。
後続の強化学習法を用いて,拡張軌道から学習し,未観測状態から未観測状態へ移行する。
論文 参考訳(メタデータ) (2024-06-18T12:27:02Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。