論文の概要: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.16299v4
- Date: Thu, 30 May 2024 17:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-01 00:22:17.061961
- Title: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning
- Title(参考訳): オブザーバに基づく逆強化学習における等価解の非特異性と収束性
- Authors: Jared Town, Zachary Morrison, Rushikesh Kamalapurkar,
- Abstract要約: オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数のソリューションの存在である。
非特異性は等価解の概念の研究を必要とする。
IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発した。
- 参考スコア(独自算出の注目度): 0.8943924354248618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge in solving the deterministic inverse reinforcement learning (IRL) problem online and in real-time is the existence of multiple solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions, i.e., solutions that result in a different cost functional but same feedback matrix, and convergence to such solutions. While offline algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer that converges to approximately equivalent solutions of the IRL problem is developed. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique.
- Abstract(参考訳): オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数の解が存在することである。
非特異性は等価解の概念、すなわち異なるコスト関数的だが同じフィードバック行列をもたらす解、およびそのような解への収束の研究を必要とする。
等価解に収束するオフラインアルゴリズムは文献で開発されているが、非特異性に対処するオンラインリアルタイム技術は利用できない。
本稿では、IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発する。
解析を容易にするために新たなデータリッチネス条件が開発され, シミュレーションにより, 提案手法の有効性を実証する。
関連論文リスト
- Homotopy Continuation Made Easy: Regression-based Online Simulation of Starting Problem-Solution Pairs [17.543457476766367]
ホモトピーの継続は 除去テンプレートの 代替物として導入されました
我々の革新は、入力対応から直接解を予測するためにシミュレーションで訓練された回帰ネットワークを利用することで成り立っている。
このエレガントな組み合わせを一般化カメラ切除に適用し、また、難解な一般化された相対ポーズとスケール問題に対する新しい解決策を導入する。
論文 参考訳(メタデータ) (2024-11-06T08:22:00Z) - Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces [47.907236421762626]
本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究する。
まず、専門家の政策全体にアクセスでき、逆問題に対する解決策の集合を特徴づけるケースについて考察する。
論文 参考訳(メタデータ) (2024-05-24T12:53:07Z) - Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems [0.6906005491572401]
本研究では、教師なし学習(UL)に基づくCOソルバのための連続的アン緩和(CTRA)を提案する。
CTRAは、単一のトレーニング実行で多様なソリューションを見つけるための計算効率のよいフレームワークである。
数値実験により、CTRAにより、ULベースの解法は、既存の解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
論文 参考訳(メタデータ) (2024-02-03T15:31:05Z) - HomPINNs: homotopy physics-informed neural networks for solving the
inverse problems of nonlinear differential equations with multiple solutions [6.89453634946458]
非線形微分方程式(DE)の逆問題を解決するためにホモトピー物理情報ニューラルネットワーク(HomPINN)を提案する。
提案するフレームワークは、DEC制約を順守しながら、さまざまなソリューションにわたるラベルなしの観測を同時に近似するためにNNを使うことから始まる。
提案手法はスケーラブルで適応可能であり,複数の解と未知パラメータを用いたDESの解法として有効であることを示す。
論文 参考訳(メタデータ) (2023-04-06T01:20:23Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。
連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文 参考訳(メタデータ) (2021-03-12T04:54:31Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。
我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。
集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文 参考訳(メタデータ) (2020-02-20T15:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。