論文の概要: Model Selection for Inverse Reinforcement Learning via Structural Risk Minimization
- arxiv url: http://arxiv.org/abs/2312.16566v2
- Date: Mon, 31 Mar 2025 03:05:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:28:46.740700
- Title: Model Selection for Inverse Reinforcement Learning via Structural Risk Minimization
- Title(参考訳): 構造リスク最小化による逆強化学習のためのモデル選択
- Authors: Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen,
- Abstract要約: 逆強化学習(IRL)は通常、報酬関数モデルが重み付けされた特徴の和として事前に指定されていると仮定する。
単純化されたモデルは理想的な報酬関数を含まないが、複雑さの高いモデルは相当なコストと潜在的な過度なオーバーフィッティングをもたらす。
本稿では、構造リスク最小化フレームワークを導入することにより、IRL問題のモデル選択におけるこのトレードオフを解決する。
- 参考スコア(独自算出の注目度): 8.649349612295815
- License:
- Abstract: Inverse reinforcement learning (IRL) usually assumes the reward function model is pre-specified as a weighted sum of features and estimates the weighting parameters only. However, how to select features and determine a proper reward model is nontrivial and experience-dependent. A simplistic model is less likely to contain the ideal reward function, while a model with high complexity leads to substantial computation cost and potential overfitting. This paper addresses this trade-off in the model selection for IRL problems by introducing the structural risk minimization (SRM) framework from statistical learning. SRM selects an optimal reward function class from a hypothesis set minimizing both estimation error and model complexity. To formulate an SRM scheme for IRL, we estimate the policy gradient from given demonstration as the empirical risk, and establish the upper bound of Rademacher complexity as the model penalty of hypothesis function classes. The SRM learning guarantee is further presented. In particular, we provide the explicit form for the linear weighted sum setting. Simulations demonstrate the performance and efficiency of our algorithm.
- Abstract(参考訳): 逆強化学習(IRL)は通常、報酬関数モデルが重み付けされた特徴の和として事前に指定され、重み付けパラメータのみを推定する。
しかし、どうやって機能を選択し、適切な報酬モデルを決定するかは、自明で経験に依存しない。
単純化されたモデルは理想的な報酬関数を含まないが、高い複雑性を持つモデルは計算コストと潜在的な過度なオーバーフィッティングをもたらす。
本稿では、統計学習から構造リスク最小化(SRM)フレームワークを導入することにより、IRL問題のモデル選択におけるこのトレードオフに対処する。
SRMは推定誤差とモデル複雑性の両方を最小化する仮説セットから最適報酬関数クラスを選択する。
IRLのSRMスキームを定式化するために、与えられた実証から得られるポリシー勾配を経験的リスクとして推定し、仮説関数クラスのモデルペナルティとしてラデマッハ複雑性の上限を確立する。
SRM学習保証がさらに提示される。
特に、線形重み付き和設定に対して明示的な形式を提供する。
シミュレーションはアルゴリズムの性能と効率を実証する。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Functional Risk Minimization [89.85247272720467]
本稿では,損失を出力ではなく関数と比較するフレームワークである機能的リスク最小化を提案する。
これにより、教師なし、教師なし、およびRL実験のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-12-30T18:29:48Z) - Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - Model Selection Through Model Sorting [1.534667887016089]
ネスト型経験リスク (NER) と呼ばれるモデル順序選択法を提案する。
UCRデータセットでは、NER法はUCRデータセットの分類の複雑さを劇的に減らす。
論文 参考訳(メタデータ) (2024-09-15T09:43:59Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Invariant Risk Minimization Is A Total Variation Model [3.000494957386027]
不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。
IRMは本質的に学習リスクのL2$(TV-$ell$)に基づく総変動であることを示す。
本稿では,TV-$ell$モデルに基づく新しいIRMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T15:34:14Z) - On the Variance, Admissibility, and Stability of Empirical Risk
Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。
軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。
また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。
私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文 参考訳(メタデータ) (2021-02-24T04:47:55Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。