Fugu-MT 論文翻訳(概要): Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization

論文の概要: Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization

arxiv url: http://arxiv.org/abs/2312.16566v1
Date: Wed, 27 Dec 2023 13:23:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 18:50:04.998799
Title: Inverse Reinforcement Learning with Unknown Reward Model based on Structural Risk Minimization
Title（参考訳）: 構造リスク最小化に基づく未知報酬モデルによる逆強化学習
Authors: Chendi Qu, Jianping He, Xiaoming Duan, Jiming Chen
Abstract要約: 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。単純化されたモデルは真の報酬関数を含まないが、高い複雑さを持つモデルは相当なコストと過度なリスクをもたらす。本稿では,統計的学習から構造リスク最小化(SRM)手法を導入することで,このトレードオフに対処する。
参考スコア（独自算出の注目度）: 9.44879308639364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Inverse reinforcement learning (IRL) usually assumes the model of the reward function is pre-specified and estimates the parameter only. However, how to determine a proper reward model is nontrivial. A simplistic model is less likely to contain the real reward function, while a model with high complexity leads to substantial computation cost and risks overfitting. This paper addresses this trade-off in IRL model selection by introducing the structural risk minimization (SRM) method from statistical learning. SRM selects an optimal reward function class from a hypothesis set minimizing both estimation error and model complexity. To formulate an SRM scheme for IRL, we estimate policy gradient by demonstration serving as empirical risk and establish the upper bound of Rademacher complexity of hypothesis classes as model penalty. The learning guarantee is further presented. In particular, we provide explicit SRM for the common linear weighted sum setting in IRL. Simulations demonstrate the performance and efficiency of our scheme.
Abstract（参考訳）: 逆強化学習(IRL)は通常、報酬関数のモデルが事前に特定され、パラメータのみを推定する。しかし、適切な報酬モデルを決定する方法は非自明である。単純化されたモデルは真の報酬関数を含まないが、高い複雑性を持つモデルは計算コストと過度に適合するリスクをもたらす。本稿では、統計学習から構造リスク最小化(SRM)手法を導入することにより、IRLモデル選択におけるこのトレードオフに対処する。 SRMは推定誤差とモデルの複雑さを最小化する仮説セットから最適報酬関数クラスを選択する。 irl の srm スキームを定式化するために,実証的なリスクとして作用し,仮説クラスのラデマシェ複雑性の上限をモデルペナルティとして定式化することにより,政策勾配を推定する。学習保証はさらに提示される。特に、IRL における共通線型重み付け和設定に対して明示的な SRM を提供する。シミュレーションは,提案手法の性能と効率を示す。

関連論文リスト

Discriminative Policy Optimization for Token-Level Reward Models [55.98642069903191]
プロセス報酬モデル(PRM)は、結果報酬モデル(ORM)と比較して、よりきめ細かい監督を提供する。 Q-RMは、微粒なアノテーションに頼ることなく、優先データからトークンレベルのQ関数を明示的に学習する。 Q-RMによる強化学習は、トレーニング効率を大幅に向上させ、GSM8KでのORMの12倍、MATHでのステップレベルPRMの11倍の収束を実現した。
論文参考訳（メタデータ） (2025-05-29T11:40:34Z)
Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。 PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文参考訳（メタデータ） (2025-03-28T14:39:52Z)
Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文参考訳（メタデータ） (2025-02-11T19:24:09Z)
Towards Reliable Alignment: Uncertainty-aware RLHF [14.20181662644689]
報酬モデルの変動はアライメント問題に有害であることを示す。このような政策は、不確実な報酬に対してより慎重であるという意味で、よりリスク回避であることを示す。我々は、この報酬モデルの集合を用いて、我々の方法論を用いて言語モデルを整列させ、我々の経験的発見が我々の理論的予測と一致することを観察する。
論文参考訳（メタデータ） (2024-10-31T08:26:51Z)
Model Selection Through Model Sorting [1.534667887016089]
ネスト型経験リスク (NER) と呼ばれるモデル順序選択法を提案する。 UCRデータセットでは、NER法はUCRデータセットの分類の複雑さを劇的に減らす。
論文参考訳（メタデータ） (2024-09-15T09:43:59Z)
Invariant Risk Minimization Is A Total Variation Model [3.000494957386027]
不変リスク最小化(英: Invariant risk minimization、IRM)とは、機械学習において、不変の機能を様々な環境に一般化する手法である。 IRMは本質的に学習リスクのL2$(TV-$ell$)に基づく総変動であることを示す。本稿では,TV-$ell$モデルに基づく新しいIRMフレームワークを提案する。
論文参考訳（メタデータ） (2024-05-02T15:34:14Z)
Provable Risk-Sensitive Distributional Reinforcement Learning with General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文参考訳（メタデータ） (2024-02-28T08:43:18Z)
Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文参考訳（メタデータ） (2024-02-08T14:54:47Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
On the Variance, Admissibility, and Stability of Empirical Risk Minimization [80.26309576810844]
2乗損失を持つ経験的リスク最小化(ERM)は、極小最適誤差率に達する可能性がある。軽微な仮定では、ERMの準最適性はばらつきよりも大きなバイアスによるものでなければならない。また、我々の推定は、非ドンスカー類に対するCaponnetto と Rakhlin (2006) の主な結果を補完する ERM の安定性を示唆している。
論文参考訳（メタデータ） (2023-05-29T15:25:48Z)
A Model-Based Method for Minimizing CVaR and Beyond [7.751691910877239]
CVaR(Conditional Value-at-Risk)目標の最小化のために, Prox-linear 法の変種を開発した。 CVaRは最悪のケースのパフォーマンスを最小化することに焦点を当てたリスク尺度であり、損失の最上位量の平均として定義される。機械学習では、そのようなリスク尺度はより堅牢なモデルをトレーニングするのに有用である。
論文参考訳（メタデータ） (2023-05-27T15:38:53Z)
When Demonstrations Meet Generative World Models: A Maximum Likelihood Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文参考訳（メタデータ） (2023-02-15T04:14:20Z)
Sample Complexity of Robust Reinforcement Learning with a Generative Model [0.0]
本稿では,モデルに基づく強化学習(RL)アルゴリズムを提案する。我々は,全変動距離,カイ二乗発散,KL発散の3種類の不確実性集合を考察した。この結果に加えて,ロバストポリシの利点に関する公式な分析的議論も提示する。
論文参考訳（メタデータ） (2021-12-02T18:55:51Z)
On the Minimal Error of Empirical Risk Minimization [90.09093901700754]
回帰作業における経験的リスク最小化(ERM)手順の最小誤差について検討する。私たちの鋭い下限は、データを生成するモデルの単純さに適応する可能性(あるいは不可能)に光を当てています。
論文参考訳（メタデータ） (2021-02-24T04:47:55Z)
Nonintrusive Uncertainty Quantification for automotive crash problems with VPS/Pamcrash [0.0]
サロゲートモデル(メタモデル)はモンテカルロプロセスの計算コストを劇的に削減できる。カーネル主成分分析(kPCA)はモデル結果記述の簡略化に有効である。ベンチマーククラッシュテストは、メタモデルとkPCAを組み合わせる効率を示すために使用される。
論文参考訳（メタデータ） (2021-02-15T16:59:39Z)
Model-Augmented Q-learning [112.86795579978802]
モデルベースRLの構成要素を付加したMFRLフレームワークを提案する。具体的には、$Q$-valuesだけでなく、共有ネットワークにおける遷移と報酬の両方を見積もる。提案手法は,MQL (Model-augmented $Q$-learning) とよばれる提案手法により,真に報いられた学習によって得られる解と同一のポリシ不変解が得られることを示す。
論文参考訳（メタデータ） (2021-02-07T17:56:50Z)
On Statistical Efficiency in Learning [37.08000833961712]
モデルフィッティングとモデル複雑性のバランスをとるためのモデル選択の課題に対処する。モデルの複雑さを順次拡大し、選択安定性を高め、コストを削減するオンラインアルゴリズムを提案します。実験の結果, 提案手法は予測能力が高く, 計算コストが比較的低いことがわかった。
論文参考訳（メタデータ） (2020-12-24T16:08:29Z)
On the minmax regret for statistical manifolds: the role of curvature [68.8204255655161]
2つの部分のコードと最小記述長は、最高のモデルを選別するための手順を提供するのに成功している。我々は、フィッシャー情報計量のスカラー曲率が支配的な役割を果たす複雑さによって与えられる標準表現よりも、よりシャープな表現を導出する。
論文参考訳（メタデータ） (2020-07-06T17:28:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。