論文の概要: Inverse Reinforcement Learning Using Just Classification and a Few Regressions
- arxiv url: http://arxiv.org/abs/2509.21172v1
- Date: Thu, 25 Sep 2025 13:53:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.952482
- Title: Inverse Reinforcement Learning Using Just Classification and a Few Regressions
- Title(参考訳): 単純な分類と少数の回帰を用いた逆強化学習
- Authors: Lars van der Laan, Nathan Kallus, Aurélien Bibaut,
- Abstract要約: 逆強化学習は、基礎となる報酬を明らかにすることによって観察された振る舞いを説明することを目的としている。
集団最大化解は, 行動方針を含む線形不動点方程式によって特徴づけられることを示す。
最適解法,一般オラクルアルゴリズム,有限サンプル誤差境界,およびMaxEnt IRLに対する競合的あるいは優れた性能を示す実験結果の正確な評価を行う。
- 参考スコア(独自算出の注目度): 38.71913609455455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) aims to explain observed behavior by uncovering an underlying reward. In the maximum-entropy or Gumbel-shocks-to-reward frameworks, this amounts to fitting a reward function and a soft value function that together satisfy the soft Bellman consistency condition and maximize the likelihood of observed actions. While this perspective has had enormous impact in imitation learning for robotics and understanding dynamic choices in economics, practical learning algorithms often involve delicate inner-loop optimization, repeated dynamic programming, or adversarial training, all of which complicate the use of modern, highly expressive function approximators like neural nets and boosting. We revisit softmax IRL and show that the population maximum-likelihood solution is characterized by a linear fixed-point equation involving the behavior policy. This observation reduces IRL to two off-the-shelf supervised learning problems: probabilistic classification to estimate the behavior policy, and iterative regression to solve the fixed point. The resulting method is simple and modular across function approximation classes and algorithms. We provide a precise characterization of the optimal solution, a generic oracle-based algorithm, finite-sample error bounds, and empirical results showing competitive or superior performance to MaxEnt IRL.
- Abstract(参考訳): 逆強化学習(IRL)は、基礎となる報酬を明らかにすることによって観察された振る舞いを説明することを目的としている。
最大エントロピーやガンベル・ショック・ツー・リワードの枠組みでは、これは報酬関数とソフトバリュー関数を適合させ、ソフトベルマン整合条件を満足させ、観測された行動の可能性を最大化する。
この視点は、ロボット工学の模倣学習や経済学における動的選択の理解に大きな影響を与えてきたが、実用的な学習アルゴリズムは、繊細なインナーループ最適化、反復的動的プログラミング、あるいは敵の訓練を伴い、これらは全て、ニューラルネットやブーストのようなモダンで表現力の高い関数近似器の使用を複雑にしている。
我々は、ソフトマックスIRLを再検討し、集団最大様解が、行動ポリシーを含む線形不動点方程式によって特徴づけられることを示す。
この観察により、IRLは、行動ポリシーを推定する確率的分類(probabilistic classification)と、固定点を解く反復回帰の2つの教師付き学習問題に還元される。
結果は関数近似クラスとアルゴリズムにまたがってシンプルでモジュラーである。
最適解法,一般オラクルアルゴリズム,有限サンプル誤差境界,およびMaxEnt IRLに対する競合的あるいは優れた性能を示す実験結果の正確な評価を行う。
関連論文リスト
- Recursive Reward Aggregation [60.51668865089082]
本稿では,報酬関数の変更を不要としたフレキシブルな行動アライメントのための代替手法を提案する。
マルコフ決定過程(MDP)の代数的視点を導入することにより、ベルマン方程式が報酬の生成と集約から自然に現れることを示す。
我々のアプローチは決定論的および決定論的設定の両方に適用され、価値に基づくアルゴリズムとアクター批判的アルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-07-11T12:37:20Z) - Maximum Total Correlation Reinforcement Learning [23.209609715886454]
誘導軌道内の全相関を最大化する強化学習問題を修正した。
シミュレーションロボット環境において,本手法は周期的かつ圧縮的な軌道を誘導するポリシーを自然に生成する。
論文 参考訳(メタデータ) (2025-05-22T14:48:00Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Weighted Maximum Entropy Inverse Reinforcement Learning [22.269565708490468]
逆強化学習(IRL)と模倣学習(IM)について検討する。
エントロピーフレームワークに最大重み関数を追加することで学習プロセスを改善する新しい方法を提案する。
我々のフレームワークとアルゴリズムは、報酬(またはポリシー)関数とマルコフ決定プロセスに追加されるエントロピー項の構造の両方を学ぶことができる。
論文 参考訳(メタデータ) (2022-08-20T06:02:07Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。