論文の概要: Robust Imitation via Mirror Descent Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.11201v1
- Date: Thu, 20 Oct 2022 12:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:35:52.423472
- Title: Robust Imitation via Mirror Descent Inverse Reinforcement Learning
- Title(参考訳): 鏡下逆強化学習によるロバスト模倣
- Authors: Dong-Sig Han, Hyunseo Kim, Hyundo Lee, Je-Hwan Ryu, Byoung-Tak Zhang
- Abstract要約: 本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
- 参考スコア(独自算出の注目度): 18.941048578572577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, adversarial imitation learning has shown a scalable reward
acquisition method for inverse reinforcement learning (IRL) problems. However,
estimated reward signals often become uncertain and fail to train a reliable
statistical model since the existing methods tend to solve hard optimization
problems directly. Inspired by a first-order optimization method called mirror
descent, this paper proposes to predict a sequence of reward functions, which
are iterative solutions for a constrained convex problem. IRL solutions derived
by mirror descent are tolerant to the uncertainty incurred by target density
estimation since the amount of reward learning is regulated with respect to
local geometric constraints. We prove that the proposed mirror descent update
rule ensures robust minimization of a Bregman divergence in terms of a rigorous
regret bound of $\mathcal{O}(1/T)$ for step sizes $\{\eta_t\}_{t=1}^{T}$. Our
IRL method was applied on top of an adversarial framework, and it outperformed
existing adversarial methods in an extensive suite of benchmarks.
- Abstract(参考訳): 近年,逆強化学習(IRL)問題に対して,逆模倣学習はスケーラブルな報酬獲得手法を示している。
しかし,既存の手法では厳密な最適化問題を直接解く傾向があるため,推定報酬信号は不確実となり,信頼性の高い統計モデルの訓練に失敗することが多い。
ミラー降下と呼ばれる一階最適化法に着想を得て,制約凸問題に対する反復解である報酬関数の列を予測することを提案する。
ミラー降下によるirl解は,局所的な幾何学的制約により報酬学習量が規制されるため,目標密度推定によって生じる不確実性に耐性がある。
提案したミラー降下更新規則は,ステップサイズが$\{\eta_t\}_{t=1}^{T}$に対して,厳密な後悔境界が$\mathcal{O}(1/T)$であることから,ブレグマン発散の堅牢な最小化を保証する。
提案手法は,既存手法よりも幅広いベンチマーク群において,既存手法よりも優れていた。
関連論文リスト
- Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance [52.093434664236014]
近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。
この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。
論文 参考訳(メタデータ) (2024-02-03T13:35:39Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy
Optimization [63.32053223422317]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
特に、MDP上の分布によって誘導される値の分散を特徴付けることに焦点をあてる。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Online Contextual Decision-Making with a Smart Predict-then-Optimize
Method [4.061135251278187]
資源制約を考慮したオンライン文脈決定問題について検討する。
本稿では,「スマート予測-then-(SPO)」法に基づく予測ステップと,ミラー降下に基づく2つの更新ステップを混合するアルゴリズムを提案する。
提案手法の全体的な収束速度はオンラインミラー降下の$mathcalO(T-1/2)$収束に依存することを示す。
論文 参考訳(メタデータ) (2022-06-15T06:16:13Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Sparse recovery by reduced variance stochastic approximation [5.672132510411465]
雑音観測によるスパース信号回復問題に対する反復2次最適化ルーチンの適用について論じる。
本稿では,Median-of-Meansのような手法を用いて,対応するソリューションの信頼性を向上する方法について述べる。
論文 参考訳(メタデータ) (2020-06-11T12:31:20Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z) - The Statistical Complexity of Early-Stopped Mirror Descent [27.393821783237186]
早期停止ミラー降下アルゴリズムにより達成される過剰リスクの統計的保証について検討する。
正方形損失の凸性を特徴づける不等式を完遂することにより、オフセットラデマッハ複素数とミラー降下法のポテンシャルベース収束解析との内在的リンクを同定する。
論文 参考訳(メタデータ) (2020-02-01T11:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。