論文の概要: Inverse Reinforcement Learning with Unknown Reward Model based on
Structural Risk Minimization
- arxiv url: http://arxiv.org/abs/2312.16566v1
- Date: Wed, 27 Dec 2023 13:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:50:04.998799
- Title: Inverse Reinforcement Learning with Unknown Reward Model based on
Structural Risk Minimization
- Title(参考訳): 構造リスク最小化に基づく未知報酬モデルによる逆強化学習
- Authors: Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen
- Abstract要約: 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。
単純化されたモデルは真の報酬関数を含まないが、高い複雑さを持つモデルは相当なコストと過度なリスクをもたらす。
本稿では,統計的学習から構造リスク最小化(SRM)手法を導入することで,このトレードオフに対処する。
- 参考スコア(独自算出の注目度): 9.44879308639364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inverse reinforcement learning (IRL) usually assumes the model of the reward
function is pre-specified and estimates the parameter only. However, how to
determine a proper reward model is nontrivial. A simplistic model is less
likely to contain the real reward function, while a model with high complexity
leads to substantial computation cost and risks overfitting. This paper
addresses this trade-off in IRL model selection by introducing the structural
risk minimization (SRM) method from statistical learning. SRM selects an
optimal reward function class from a hypothesis set minimizing both estimation
error and model complexity. To formulate an SRM scheme for IRL, we estimate
policy gradient by demonstration serving as empirical risk and establish the
upper bound of Rademacher complexity of hypothesis classes as model penalty.
The learning guarantee is further presented. In particular, we provide explicit
SRM for the common linear weighted sum setting in IRL. Simulations demonstrate
the performance and efficiency of our scheme.
- Abstract(参考訳): 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。
しかし、適切な報酬モデルを決定する方法は非自明である。
単純化されたモデルは真の報酬関数を含まないが、高い複雑性を持つモデルは計算コストと過度に適合するリスクをもたらす。
本稿では、統計学習から構造リスク最小化(SRM)手法を導入することにより、IRLモデル選択におけるこのトレードオフに対処する。
SRMは推定誤差とモデルの複雑さを最小化する仮説セットから最適報酬関数クラスを選択する。
irl の srm スキームを定式化するために,実証的なリスクとして作用し,仮説クラスのラデマシェ複雑性の上限をモデルペナルティとして定式化することにより,政策勾配を推定する。
学習保証はさらに提示される。
特に、IRL における共通線型重み付け和設定に対して明示的な SRM を提供する。
シミュレーションは,提案手法の性能と効率を示す。
関連論文リスト
- Invariant Risk Minimization Is A Total Variation Model [3.000494957386027]
不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。
IRMは本質的に学習リスクのL2$(TV-$ell$)に基づく総変動であることを示す。
本稿では,TV-$ell$モデルに基づく新しいIRMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-02T15:34:14Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Let's Reinforce Step by Step [10.65244642965387]
人間のフィードバックからの強化学習をモデル推論の形式化に活用する。
以上の結果から, PRM法により得られる微粒な報酬は, 単純な数学的推論の精度を高めることが示唆された。
また、モデル性能において、報酬アグリゲーション関数が果たす重要な役割を示す。
論文 参考訳(メタデータ) (2023-11-10T01:35:51Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - On the Variance, Admissibility, and Stability of Empirical Risk
Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。
軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。
また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T15:25:48Z) - A Model-Based Method for Minimizing CVaR and Beyond [7.751691910877239]
CVaR(Conditional Value-at-Risk)目標の最小化のために, Prox-linear 法の変種を開発した。
CVaRは最悪のケースのパフォーマンスを最小化することに焦点を当てたリスク尺度であり、損失の最上位量の平均として定義される。
機械学習では、そのようなリスク尺度はより堅牢なモデルをトレーニングするのに有用である。
論文 参考訳(メタデータ) (2023-05-27T15:38:53Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。
私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文 参考訳(メタデータ) (2021-02-24T04:47:55Z) - Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。
具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。
提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文 参考訳(メタデータ) (2021-02-07T17:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。