論文の概要: Inverse Reinforcement Learning with Explicit Policy Estimates
- arxiv url: http://arxiv.org/abs/2103.02863v1
- Date: Thu, 4 Mar 2021 07:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 15:07:25.851519
- Title: Inverse Reinforcement Learning with Explicit Policy Estimates
- Title(参考訳): 暗黙的政策推定による逆強化学習
- Authors: Navyata Sanghvi, Shinnosuke Usami, Mohit Sharma, Joachim Groeger, Kris
Kitani
- Abstract要約: 逆強化学習問題を解くための様々な手法が、機械学習と経済学において独立に開発された。
我々は、それらがすべて共通の形態の勾配、関連する政策と目的によって特徴づけられる最適化問題のクラスに属していることを示しています。
この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
- 参考スコア(独自算出の注目度): 19.159290496678004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various methods for solving the inverse reinforcement learning (IRL) problem
have been developed independently in machine learning and economics. In
particular, the method of Maximum Causal Entropy IRL is based on the
perspective of entropy maximization, while related advances in the field of
economics instead assume the existence of unobserved action shocks to explain
expert behavior (Nested Fixed Point Algorithm, Conditional Choice Probability
method, Nested Pseudo-Likelihood Algorithm). In this work, we make previously
unknown connections between these related methods from both fields. We achieve
this by showing that they all belong to a class of optimization problems,
characterized by a common form of the objective, the associated policy and the
objective gradient. We demonstrate key computational and algorithmic
differences which arise between the methods due to an approximation of the
optimal soft value function, and describe how this leads to more efficient
algorithms. Using insights which emerge from our study of this class of
optimization problems, we identify various problem scenarios and investigate
each method's suitability for these problems.
- Abstract(参考訳): 逆強化学習(IRL)問題を解くための様々な手法が、機械学習と経済学において独立に開発されている。
特に、最大因果エントロピーIRL法はエントロピー最大化の観点に基づいており、経済分野における関連する進歩は、専門家の振る舞いを説明するために観測されていない作用ショックの存在を前提としている(Nested Fixed Point Algorithm, Conditional Choice Probability method, Nested Pseudo-Likelihood Algorithm)。
本研究では,これらの関連手法について,両分野から未知の接続を行う。
目的の共通形式、関連する方針、客観的勾配を特徴とする最適化問題のクラスに属することを示すことにより、これを達成する。
最適ソフト値関数の近似による手法間の鍵となる計算量とアルゴリズムの差異を実証し,より効率的なアルゴリズムを導出する方法について述べる。
この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
関連論文リスト
- Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文 参考訳(メタデータ) (2024-07-18T09:17:47Z) - Graph Reinforcement Learning for Combinatorial Optimization: A Survey and Unifying Perspective [6.199818486385127]
我々は、強化学習の試行錯誤パラダイムを用いて、より良い意思決定戦略を発見する。
この研究は、パフォーマンスアルゴリズムが典型的に知られていない非標準グラフ問題に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-09T17:45:25Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Accelerating numerical methods by gradient-based meta-solving [15.90188271828615]
科学と工学の応用においては、しばしば同様の計算問題を何度も解くことが要求される。
我々はそれらを統一的に解くための勾配に基づくアルゴリズムを提案する。
理論的解析と数値実験により,本手法の性能と汎用性を実証する。
論文 参考訳(メタデータ) (2022-06-17T07:31:18Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Stochastic convex optimization for provably efficient apprenticeship
learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。
擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文 参考訳(メタデータ) (2021-12-31T19:47:57Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。
提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文 参考訳(メタデータ) (2020-07-03T15:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。