Fugu-MT 論文翻訳(概要): Inverse Reinforcement Learning with Explicit Policy Estimates

論文の概要: Inverse Reinforcement Learning with Explicit Policy Estimates

arxiv url: http://arxiv.org/abs/2103.02863v1
Date: Thu, 4 Mar 2021 07:00:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-05 15:07:25.851519
Title: Inverse Reinforcement Learning with Explicit Policy Estimates
Title（参考訳）: 暗黙的政策推定による逆強化学習
Authors: Navyata Sanghvi, Shinnosuke Usami, Mohit Sharma, Joachim Groeger, Kris Kitani
Abstract要約: 逆強化学習問題を解くための様々な手法が、機械学習と経済学において独立に開発された。我々は、それらがすべて共通の形態の勾配、関連する政策と目的によって特徴づけられる最適化問題のクラスに属していることを示しています。この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
参考スコア（独自算出の注目度）: 19.159290496678004
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various methods for solving the inverse reinforcement learning (IRL) problem have been developed independently in machine learning and economics. In particular, the method of Maximum Causal Entropy IRL is based on the perspective of entropy maximization, while related advances in the field of economics instead assume the existence of unobserved action shocks to explain expert behavior (Nested Fixed Point Algorithm, Conditional Choice Probability method, Nested Pseudo-Likelihood Algorithm). In this work, we make previously unknown connections between these related methods from both fields. We achieve this by showing that they all belong to a class of optimization problems, characterized by a common form of the objective, the associated policy and the objective gradient. We demonstrate key computational and algorithmic differences which arise between the methods due to an approximation of the optimal soft value function, and describe how this leads to more efficient algorithms. Using insights which emerge from our study of this class of optimization problems, we identify various problem scenarios and investigate each method's suitability for these problems.
Abstract（参考訳）: 逆強化学習(IRL)問題を解くための様々な手法が、機械学習と経済学において独立に開発されている。特に、最大因果エントロピーIRL法はエントロピー最大化の観点に基づいており、経済分野における関連する進歩は、専門家の振る舞いを説明するために観測されていない作用ショックの存在を前提としている(Nested Fixed Point Algorithm, Conditional Choice Probability method, Nested Pseudo-Likelihood Algorithm)。本研究では,これらの関連手法について,両分野から未知の接続を行う。目的の共通形式、関連する方針、客観的勾配を特徴とする最適化問題のクラスに属することを示すことにより、これを達成する。最適ソフト値関数の近似による手法間の鍵となる計算量とアルゴリズムの差異を実証し,より効率的なアルゴリズムを導出する方法について述べる。この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。

関連論文リスト

Policy Testing in Markov Decision Processes [48.642181362172906]
本研究では,不確実性条件下での割引決定プロセス(MDP)におけるポリシーテスト問題について検討する。目的は、与えられたポリシーの値が数値しきい値を超えるかどうかを決定することである。
論文参考訳（メタデータ） (2025-05-21T10:13:54Z)
Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文参考訳（メタデータ） (2024-07-18T09:17:47Z)
Graph Reinforcement Learning for Combinatorial Optimization: A Survey and Unifying Perspective [6.199818486385127]
我々は、強化学習の試行錯誤パラダイムを用いて、より良い意思決定戦略を発見する。この研究は、パフォーマンスアルゴリズムが典型的に知られていない非標準グラフ問題に焦点を当てている。
論文参考訳（メタデータ） (2024-04-09T17:45:25Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Multivariate Systemic Risk Measures and Computation by Deep Learning Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文参考訳（メタデータ） (2023-02-02T22:16:49Z)
Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文参考訳（メタデータ） (2022-12-28T10:22:36Z)
Accelerating numerical methods by gradient-based meta-solving [15.90188271828615]
科学と工学の応用においては、しばしば同様の計算問題を何度も解くことが要求される。我々はそれらを統一的に解くための勾配に基づくアルゴリズムを提案する。理論的解析と数値実験により,本手法の性能と汎用性を実証する。
論文参考訳（メタデータ） (2022-06-17T07:31:18Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
Stochastic convex optimization for provably efficient apprenticeship learning [1.0609815608017066]
コスト関数が不明な大規模マルコフ決定プロセス(MDP)について検討する。擬似学習の課題に対処するために凸最適化ツールを用いており、これは、限られた専門家による実証からポリシーを学習するものである。
論文参考訳（メタデータ） (2021-12-31T19:47:57Z)
A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文参考訳（メタデータ） (2021-08-22T16:00:45Z)
Proximal Causal Learning with Kernels: Two-Stage Estimation and Moment Restriction [39.51144507601913]
我々は近位因果学習の設定に焦点をあてるが、本手法はフレドホルム積分方程式によって特徴づけられるより広い逆問題のクラスを解くのに使うことができる。我々は,各アルゴリズムに一貫性の保証を提供し,これらの手法が合成データと実世界のタスクをシミュレートしたデータにおいて競争的な結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-05-10T17:52:48Z)
Differentiable Causal Discovery from Interventional Data [141.41931444927184]
本稿では、介入データを活用可能なニューラルネットワークに基づく理論的基盤化手法を提案する。提案手法は,様々な環境下での美術品の状態と良好に比較できることを示す。
論文参考訳（メタデータ） (2020-07-03T15:19:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。