論文の概要: Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models
- arxiv url: http://arxiv.org/abs/2512.24407v1
- Date: Tue, 30 Dec 2025 18:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.463771
- Title: Efficient Inference for Inverse Reinforcement Learning and Dynamic Discrete Choice Models
- Title(参考訳): 逆強化学習と動的離散選択モデルのための効率的な推論
- Authors: Lars van der Laan, Aurelien Bibaut, Nathan Kallus,
- Abstract要約: 逆強化学習(IRL)と動的離散選択(DDC)モデルは、観察された振る舞いを合理化する報酬関数を回復することにより、シーケンシャルな意思決定を説明する。
本研究では,広義の報酬依存関数に対して統計的に効率的な推論を行う半パラメトリックな逆強化学習フレームワークを開発した。
- 参考スコア(独自算出の注目度): 35.877107409163784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) and dynamic discrete choice (DDC) models explain sequential decision-making by recovering reward functions that rationalize observed behavior. Flexible IRL methods typically rely on machine learning but provide no guarantees for valid inference, while classical DDC approaches impose restrictive parametric specifications and often require repeated dynamic programming. We develop a semiparametric framework for debiased inverse reinforcement learning that yields statistically efficient inference for a broad class of reward-dependent functionals in maximum entropy IRL and Gumbel-shock DDC models. We show that the log-behavior policy acts as a pseudo-reward that point-identifies policy value differences and, under a simple normalization, the reward itself. We then formalize these targets, including policy values under known and counterfactual softmax policies and functionals of the normalized reward, as smooth functionals of the behavior policy and transition kernel, establish pathwise differentiability, and derive their efficient influence functions. Building on this characterization, we construct automatic debiased machine-learning estimators that allow flexible nonparametric estimation of nuisance components while achieving $\sqrt{n}$-consistency, asymptotic normality, and semiparametric efficiency. Our framework extends classical inference for DDC models to nonparametric rewards and modern machine-learning tools, providing a unified and computationally tractable approach to statistical inference in IRL.
- Abstract(参考訳): 逆強化学習(IRL)と動的離散選択(DDC)モデルは、観察された振る舞いを合理化する報酬関数を回復することにより、シーケンシャルな意思決定を説明する。
フレキシブルIRL法は一般的に機械学習に頼っているが、有効な推論の保証は提供していない。
我々は,最大エントロピーIRLとガンベルショックDDCモデルにおいて,幅広い種類の報酬依存関数に対して統計的に効率的な推論を行う,逆強化学習のための半パラメトリックフレームワークを開発した。
対数行動ポリシーは、政策価値の差異をポイントが特定し、簡単な正規化の下で報酬そのものを識別する擬似回帰として機能することを示す。
次に,行動ポリシーと遷移カーネルのスムーズな機能として,既知および反実的ソフトマックスポリシーの下でのポリシー値と正規化報酬の機能を含むこれらの目標を定式化し,経路的微分可能性を確立し,それらの効率的な影響関数を導出する。
この特徴に基づいて、我々は、$\sqrt{n}$-consistency、漸近正規性、半パラメトリック効率を達成しつつ、ニュアンス成分のフレキシブルな非パラメトリック推定を可能にする自動脱バイアス機械学習推定器を構築した。
我々のフレームワークは、DDCモデルの古典的推論を非パラメトリックな報酬や現代の機械学習ツールに拡張し、IRLにおける統計的推論に対する統一的で計算学的に抽出可能なアプローチを提供する。
関連論文リスト
- Inverse Reinforcement Learning Using Just Classification and a Few Regressions [38.71913609455455]
逆強化学習は、基礎となる報酬を明らかにすることによって観察された振る舞いを説明することを目的としている。
集団最大化解は, 行動方針を含む線形不動点方程式によって特徴づけられることを示す。
最適解法,一般オラクルアルゴリズム,有限サンプル誤差境界,およびMaxEnt IRLに対する競合的あるいは優れた性能を示す実験結果の正確な評価を行う。
論文 参考訳(メタデータ) (2025-09-25T13:53:43Z) - Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation [28.63391989014238]
連続時間強化学習(CTRL)は、相互作用が時間とともに継続的に進化する環境において、シーケンシャルな意思決定のための原則的なフレームワークを提供する。
サンプルと計算効率の両方を実現するモデルベースアルゴリズムを提案する。
我々は,$N$の測定値を用いて,$tildeO(sqrtd_mathcalR + d_mathcalFN-1/2)$の準最適解を求めることができることを示す。
論文 参考訳(メタデータ) (2025-05-20T18:37:51Z) - Semiparametric Double Reinforcement Learning with Applications to Long-Term Causal Inference [33.14076284663493]
短期的なデータから長期的な因果効果を推定しなければならない。
MDPはこのような長期的ダイナミクスを捉えるための自然なフレームワークを提供する。
非パラメトリックな実装は時間間重なりの強い仮定を必要とする。
アイソトニックベルマンキャリブレーションに基づく新しいプラグイン推定器を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Double/Debiased Machine Learning for Dynamic Treatment Effects via
g-Estimation [25.610534178373065]
複数の治療が時間とともに割り当てられる場合の設定における治療効果の推定について検討する。
本稿では、治療の動的効果を推定するために、ダブル/デバイアスの機械学習フレームワークの拡張を提案する。
論文 参考訳(メタデータ) (2020-02-17T22:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。