論文の概要: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based
Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.16299v3
- Date: Thu, 20 Jul 2023 05:27:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 18:47:00.768691
- Title: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based
Inverse Reinforcement Learning
- Title(参考訳): オブザーバベース逆強化学習における等価解に対する不合理性と収束
- Authors: Jared Town, Zachary Morrison, Rushikesh Kamalapurkar
- Abstract要約: オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数のソリューションの存在である。
非特異性は等価解の概念の研究を必要とする。
IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発した。
- 参考スコア(独自算出の注目度): 2.7178968279054927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in solving the deterministic inverse reinforcement learning
(IRL) problem online and in real-time is the existence of multiple solutions.
Nonuniqueness necessitates the study of the notion of equivalent solutions,
i.e., solutions that result in a different cost functional but same feedback
matrix, and convergence to such solutions. While offline algorithms that result
in convergence to equivalent solutions have been developed in the literature,
online, real-time techniques that address nonuniqueness are not available. In
this paper, a regularized history stack observer that converges to
approximately equivalent solutions of the IRL problem is developed. Novel
data-richness conditions are developed to facilitate the analysis and
simulation results are provided to demonstrate the effectiveness of the
developed technique.
- Abstract(参考訳): オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数の解が存在することである。
非特異性は等価解の概念、すなわち異なるコスト関数的だが同じフィードバック行列をもたらす解、およびそのような解への収束の研究を必要とする。
同等のソリューションに収束するオフラインアルゴリズムが文献で開発されているが、非合理性に対処するオンラインリアルタイム技術は利用できない。
本稿では、IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発する。
本手法の有効性を実証するために,新しいデータリッチネス条件を開発し,シミュレーション結果を得た。
関連論文リスト
- Mining Potentially Explanatory Patterns via Partial Solutions [39.58317527488534]
本稿では,高適合性,単純性,原子性のバランスをとるために選択された部分解の集合を組み立てるアルゴリズムを提案する。
標準ベンチマークによる実験の結果,提案アルゴリズムは探索性能に影響を与えることなく,合理的な計算コストで説明可能性を向上させる部分解を見つけることができることがわかった。
論文 参考訳(メタデータ) (2024-04-05T20:12:02Z) - Online Distributed Learning over Random Networks [1.119697400073873]
本研究は, 実運用による課題として, (i) オンライン学習, (i) ローカルデータの時間的変化, (ii) 非同期エージェントの計算, (iii) 信頼性の低い限られた通信, (iv) ローカルの計算を不正確に行うことに焦点を当てる。
マルチプライヤの交互方向法(ADMM)の分散演算子理論(DOT)版を紹介する。
我々は,凸学習の問題に収束することが証明された。
論文 参考訳(メタデータ) (2023-09-01T15:18:05Z) - HomPINNs: homotopy physics-informed neural networks for solving the
inverse problems of nonlinear differential equations with multiple solutions [6.89453634946458]
非線形微分方程式(DE)の逆問題を解決するためにホモトピー物理情報ニューラルネットワーク(HomPINN)を提案する。
提案するフレームワークは、DEC制約を順守しながら、さまざまなソリューションにわたるラベルなしの観測を同時に近似するためにNNを使うことから始まる。
提案手法はスケーラブルで適応可能であり,複数の解と未知パラメータを用いたDESの解法として有効であることを示す。
論文 参考訳(メタデータ) (2023-04-06T01:20:23Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Improved Training of Physics-Informed Neural Networks with Model
Ensembles [81.38804205212425]
我々は、PINNを正しい解に収束させるため、解区間を徐々に拡大することを提案する。
すべてのアンサンブルのメンバーは、観測されたデータの近くで同じ解に収束する。
提案手法は, 得られた解の精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-11T14:05:34Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Algorithms for Solving Nonlinear Binary Optimization Problems in Robust
Causal Inference [2.169755083801688]
連続的な結果を持つ観測データから、堅牢な因果推論テストインスタンスを解くための勾配アルゴリズムを提案する。
実現可能性定式化の構造を生かして,ロバストなテスト問題を解決するのに効率的な欲望スキームを開発する。
論文 参考訳(メタデータ) (2020-12-22T16:12:11Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。