論文の概要: Inverse Reinforcement Learning with Unknown Reward Model based on
Structural Risk Minimization
- arxiv url: http://arxiv.org/abs/2312.16566v1
- Date: Wed, 27 Dec 2023 13:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:50:04.998799
- Title: Inverse Reinforcement Learning with Unknown Reward Model based on
Structural Risk Minimization
- Title(参考訳): 構造リスク最小化に基づく未知報酬モデルによる逆強化学習
- Authors: Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen
- Abstract要約: 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。
単純化されたモデルは真の報酬関数を含まないが、高い複雑さを持つモデルは相当なコストと過度なリスクをもたらす。
本稿では,統計的学習から構造リスク最小化(SRM)手法を導入することで,このトレードオフに対処する。
- 参考スコア(独自算出の注目度): 9.44879308639364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) usually assumes the model of the reward
function is pre-specified and estimates the parameter only. However, how to
determine a proper reward model is nontrivial. A simplistic model is less
likely to contain the real reward function, while a model with high complexity
leads to substantial computation cost and risks overfitting. This paper
addresses this trade-off in IRL model selection by introducing the structural
risk minimization (SRM) method from statistical learning. SRM selects an
optimal reward function class from a hypothesis set minimizing both estimation
error and model complexity. To formulate an SRM scheme for IRL, we estimate
policy gradient by demonstration serving as empirical risk and establish the
upper bound of Rademacher complexity of hypothesis classes as model penalty.
The learning guarantee is further presented. In particular, we provide explicit
SRM for the common linear weighted sum setting in IRL. Simulations demonstrate
the performance and efficiency of our scheme.
- Abstract(参考訳): 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。
しかし、適切な報酬モデルを決定する方法は非自明である。
単純化されたモデルは真の報酬関数を含まないが、高い複雑性を持つモデルは計算コストと過度に適合するリスクをもたらす。
本稿では、統計学習から構造リスク最小化(SRM)手法を導入することにより、IRLモデル選択におけるこのトレードオフに対処する。
SRMは推定誤差とモデルの複雑さを最小化する仮説セットから最適報酬関数クラスを選択する。
irl の srm スキームを定式化するために,実証的なリスクとして作用し,仮説クラスのラデマシェ複雑性の上限をモデルペナルティとして定式化することにより,政策勾配を推定する。
学習保証はさらに提示される。
特に、IRL における共通線型重み付け和設定に対して明示的な SRM を提供する。
シミュレーションは,提案手法の性能と効率を示す。
関連論文リスト
- Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Functional Risk Minimization [89.85247272720467]
本稿では,損失を出力ではなく関数と比較するフレームワークである機能的リスク最小化を提案する。
これにより、教師なし、教師なし、およびRL実験のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-12-30T18:29:48Z) - Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。
このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。
我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文 参考訳(メタデータ) (2024-10-31T08:26:51Z) - Model Selection Through Model Sorting [1.534667887016089]
ネスト型経験リスク (NER) と呼ばれるモデル順序選択法を提案する。
UCRデータセットでは、NER法はUCRデータセットの分類の複雑さを劇的に減らす。
論文 参考訳(メタデータ) (2024-09-15T09:43:59Z) - Risk-averse Total-reward MDPs with ERM and EVaR [12.719528972742394]
リスク・アバースの総報酬基準は定常政策によって最適化可能であることを示す。
以上の結果から, リスク回避型強化学習領域において, 全報酬基準が割引基準よりも望ましい可能性が示唆された。
論文 参考訳(メタデータ) (2024-08-30T13:33:18Z) - Invariant Risk Minimization Is A Total Variation Model [3.000494957386027]
不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。
IRMは本質的に学習リスクのL2$(TV-$ell$)に基づく総変動であることを示す。
本稿では,TV-$ell$モデルに基づく新しいIRMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T15:34:14Z) - On the Variance, Admissibility, and Stability of Empirical Risk
Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。
軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。
また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。
私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文 参考訳(メタデータ) (2021-02-24T04:47:55Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。