論文の概要: Apprenticeship learning with prior beliefs using inverse optimization
- arxiv url: http://arxiv.org/abs/2505.21639v1
- Date: Tue, 27 May 2025 18:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.220878
- Title: Apprenticeship learning with prior beliefs using inverse optimization
- Title(参考訳): 逆最適化を用いた先行信条による適性学習
- Authors: Mauricio Junca, Esteban Leiva,
- Abstract要約: 意思決定プロセス(MDP)の逆形式強化学習(IRL)と逆性強化学習(IO)は、文献において比較的過小評価されている。
我々は、正規化項が欠落している場合、ALフォーマリズムは我々のフレームワークにおいて特別なケースであると主張する。
数値実験は、学習コストベクトルとポリシーにおける正規化の重要な役割を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The relationship between inverse reinforcement learning (IRL) and inverse optimization (IO) for Markov decision processes (MDPs) has been relatively underexplored in the literature, despite addressing the same problem. In this work, we revisit the relationship between the IO framework for MDPs, IRL, and apprenticeship learning (AL). We incorporate prior beliefs on the structure of the cost function into the IRL and AL problems, and demonstrate that the convex-analytic view of the AL formalism (Kamoutsi et al., 2021) emerges as a relaxation of our framework. Notably, the AL formalism is a special case in our framework when the regularization term is absent. Focusing on the suboptimal expert setting, we formulate the AL problem as a regularized min-max problem. The regularizer plays a key role in addressing the ill-posedness of IRL by guiding the search for plausible cost functions. To solve the resulting regularized-convex-concave-min-max problem, we use stochastic mirror descent (SMD) and establish convergence bounds for the proposed method. Numerical experiments highlight the critical role of regularization in learning cost vectors and apprentice policies.
- Abstract(参考訳): マルコフ決定過程(MDP)に対する逆強化学習(IRL)と逆最適化(IO)の関係は、同じ問題に対処するにもかかわらず、文献中では比較的過小評価されている。
本研究では,MDP,IRL,および見習い学習(AL)におけるIOフレームワークの関係を再考する。
我々は、コスト関数の構造をIRLおよびAL問題に取り入れ、AL形式主義の凸解析的視点(Kamoutsi et al , 2021)が我々の枠組みの緩和として現れることを実証する。
特に、AL形式は正規化項が欠落している場合、我々のフレームワークで特別な場合である。
準最適エキスパート設定に着目して、AL問題を正規化されたmin-max問題として定式化する。
正則化器は、可算コスト関数の探索を導くことにより、IRLの不備に対処する上で重要な役割を果たしている。
得られた正規化凸-凸-凹-極大問題を解くために、確率ミラー降下法(SMD)を用い、提案手法の収束境界を確立する。
数値実験は、学習コストベクトルと徒弟政策における正規化の重要な役割を強調している。
関連論文リスト
- Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Inverse Reinforcement Learning via Convex Optimization [14.050962129607537]
我々は,ある決定プロセスに基づいて未知の報酬関数を推定する逆強化CIRL問題を考察する。
このメモは、凸最適化に関するバックグラウンド知識を必要とせずに、ユーザが自分の問題に簡単に適用できるのに役立つ。
論文 参考訳(メタデータ) (2025-01-27T11:03:18Z) - Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes [4.229902091180109]
実験データからリアプノフ関数を学習するための新しい安定度認証IRL手法を提案する。
関連する制御ポリシーのクローズドフォーム表現を利用することで、CLFの空間を効率的に探索することができる。
我々は,CLFが提供する最適性に関する理論的解析を行い,シミュレーションデータと実世界データの両方を用いて我々のアプローチを評価する。
論文 参考訳(メタデータ) (2024-05-14T16:40:45Z) - Optimizing Two-way Partial AUC with an End-to-end Framework [154.47590401735323]
ROC曲線のエリア(AUC)は、機械学習にとって重要な指標である。
最近の研究は、TPAUCが既存のPartial AUCメトリクスと本質的に矛盾していることを示している。
本論文では,この新指標を最適化するための最初の試行について述べる。
論文 参考訳(メタデータ) (2022-06-23T12:21:30Z) - Complexity-Free Generalization via Distributionally Robust Optimization [4.313143197674466]
分散ロバスト最適化(DRO)から解の一般化境界を得るための代替経路を提案する。
我々の DRO 境界は、あいまいな集合の幾何と真の損失関数との整合性に依存する。
特に、DRO距離計量として最大平均誤差を用いる場合、我々の分析は、我々の知識の最も良いところは、真の損失関数にのみ依存する文献における第一の一般化であることを示している。
論文 参考訳(メタデータ) (2021-06-21T15:19:52Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Online Apprenticeship Learning [58.45089581278177]
見習い学習(AL)では、コスト関数にアクセスせずにマルコフ決定プロセス(MDP)が与えられます。
目標は、事前に定義されたコスト関数のセットで専門家のパフォーマンスに一致するポリシーを見つけることです。
ミラー下降型ノンレグレットアルゴリズムを2つ組み合わせることで,OAL問題を効果的に解くことができることを示す。
論文 参考訳(メタデータ) (2021-02-13T12:57:51Z) - Robust Inverse Reinforcement Learning under Transition Dynamics Mismatch [60.23815709215807]
本研究では,逆強化学習(IRL)問題について,専門家と学習者間の遷移力学ミスマッチの下で検討する。
本稿では,このミスマッチを支援するための基本手法として,ロバストなMCE IRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-02T14:57:13Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。