論文の概要: Statistical analysis of Inverse Entropy-regularized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.06956v1
- Date: Sun, 07 Dec 2025 18:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.605814
- Title: Statistical analysis of Inverse Entropy-regularized Reinforcement Learning
- Title(参考訳): 逆エントロピー規則化強化学習の統計的解析
- Authors: Denis Belomestny, Alexey Naumov, Sergey Samsonov,
- Abstract要約: 逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。
多くの報酬関数は同じ最適ポリシーを導き出すことができ、逆問題に悪影響を及ぼす。
Inverse Entropy-regularized Reinforcement Learningのための統計フレームワークを開発する。
- 参考スコア(独自算出の注目度): 15.054399128586232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning aims to infer the reward function that explains expert behavior observed through trajectories of state--action pairs. A long-standing difficulty in classical IRL is the non-uniqueness of the recovered reward: many reward functions can induce the same optimal policy, rendering the inverse problem ill-posed. In this paper, we develop a statistical framework for Inverse Entropy-regularized Reinforcement Learning that resolves this ambiguity by combining entropy regularization with a least-squares reconstruction of the reward from the soft Bellman residual. This combination yields a unique and well-defined so-called least-squares reward consistent with the expert policy. We model the expert demonstrations as a Markov chain with the invariant distribution defined by an unknown expert policy $π^\star$ and estimate the policy by a penalized maximum-likelihood procedure over a class of conditional distributions on the action space. We establish high-probability bounds for the excess Kullback--Leibler divergence between the estimated policy and the expert policy, accounting for statistical complexity through covering numbers of the policy class. These results lead to non-asymptotic minimax optimal convergence rates for the least-squares reward function, revealing the interplay between smoothing (entropy regularization), model complexity, and sample size. Our analysis bridges the gap between behavior cloning, inverse reinforcement learning, and modern statistical learning theory.
- Abstract(参考訳): 逆強化学習は、状態-作用対の軌跡を通して観察される専門家の行動を説明する報酬関数を推論することを目的としている。
古典的IRLにおける長年の難しさは、回収された報酬の非特異性である:多くの報酬関数は、同じ最適なポリシーを導き出し、逆問題に悪影響を及ぼす。
本稿では,逆エントロピー正規化とソフトベルマン残差の最小2乗再構成を組み合わせることで,この曖昧さを解消する逆エントロピー正規化強化学習の統計的枠組みを開発する。
この組み合わせは、専門家の方針と一致した、ユニークでよく定義された、いわゆる最小二乗報酬をもたらす。
専門家の実証は、未知のエキスパートポリシーによって定義された不変分布を持つマルコフ連鎖としてモデル化し、アクション空間上の条件分布のクラスに対して、ペナル化された最大様相の手順でポリシーを推定する。
我々は,過大なクルバックに対する高い確率境界を確立する--推定された政策と専門家の政策の相違を,政策クラスの数をカバーすることで,統計的複雑性を考慮に入れた。
これらの結果は、最小二乗の報酬関数に対する非漸近最小収束率をもたらし、平滑化(エントロピー正規化)、モデル複雑性、サンプルサイズの間の相互作用を明らかにする。
我々の分析は,行動クローニング,逆強化学習,現代統計学習理論のギャップを埋めるものである。
関連論文リスト
- Distributional Inverse Reinforcement Learning [12.590471116307485]
オフライン逆強化学習(IRL)のための分散フレームワークを提案する。
本手法は,特に報酬分布の学習において,専門家の行動の構造を捉える。
この定式化は行動分析とリスク認識模倣学習に適している。
論文 参考訳(メタデータ) (2025-10-03T13:58:09Z) - Generalizing Behavior via Inverse Reinforcement Learning with Closed-Form Reward Centroids [37.79354987519793]
本研究では,実証を通じて提供される専門家の行動を,新たな環境や追加制約に一般化する問題について検討する。
本稿では,ある有界部分集合における報酬によって引き起こされる「平均」ポリシーを選択する,新しい原理的基準を提案する。
論文 参考訳(メタデータ) (2025-09-15T14:53:54Z) - Likelihood Reward Redistribution [0.0]
本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。
ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
論文 参考訳(メタデータ) (2025-03-20T20:50:49Z) - Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Generalization Bounds of Surrogate Policies for Combinatorial Optimization Problems [53.03951222945921]
我々はスムーズな(摂動された)ポリシーを解析し、線形オラクルが使用する方向に対して制御されたランダムな摂動を付加する。
我々の主な貢献は、過剰リスクを摂動バイアス、統計的推定誤差、最適化誤差に分解する一般化境界である。
車両のスケジューリングやスムーズ化がトラクタブルトレーニングと制御された一般化の両方を可能にしていることを示す。
論文 参考訳(メタデータ) (2024-07-24T12:00:30Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。