Fugu-MT 論文翻訳(概要): Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning

論文の概要: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning

arxiv url: http://arxiv.org/abs/2210.16299v3
Date: Thu, 20 Jul 2023 05:27:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-21 18:47:00.768691
Title: Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning
Title（参考訳）: オブザーバベース逆強化学習における等価解に対する不合理性と収束
Authors: Jared Town, Zachary Morrison, Rushikesh Kamalapurkar
Abstract要約: オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数のソリューションの存在である。非特異性は等価解の概念の研究を必要とする。 IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発した。
参考スコア（独自算出の注目度）: 2.7178968279054927
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A key challenge in solving the deterministic inverse reinforcement learning (IRL) problem online and in real-time is the existence of multiple solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions, i.e., solutions that result in a different cost functional but same feedback matrix, and convergence to such solutions. While offline algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer that converges to approximately equivalent solutions of the IRL problem is developed. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique.
Abstract（参考訳）: オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数の解が存在することである。非特異性は等価解の概念、すなわち異なるコスト関数的だが同じフィードバック行列をもたらす解、およびそのような解への収束の研究を必要とする。同等のソリューションに収束するオフラインアルゴリズムが文献で開発されているが、非合理性に対処するオンラインリアルタイム技術は利用できない。本稿では、IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発する。本手法の有効性を実証するために,新しいデータリッチネス条件を開発し,シミュレーション結果を得た。

関連論文リスト

Learning and discovering multiple solutions using physics-informed neural networks with random initialization and deep ensemble [10.047968926134363]
物理インフォームドニューラルネットワーク(PINN)の複数の解を発見する能力について検討する。 PINNは、非線形常微分方程式と偏微分方程式の複数の解を効果的に発見することができる。本稿では,従来の数値解法におけるPINN生成解を初期条件や初期推定として利用することを提案する。
論文参考訳（メタデータ） (2025-03-08T19:32:22Z)
Continuous Approximation of the Fully Connected Ising Hamiltonian: Exact Ground State Solutions for a Novel Class of Ising Models with Applications to Fidelity Assessment in Ising Machines [1.2903829793534267]
離散イジング・ハミルトニアンを連続的な枠組みに再構成することで、大規模イジング問題を解くための新しい分析的アプローチを提案する。提案手法を検証するため, 解析解と量子インスパイアされたIsingアルゴリズムと量子Isingマシンから得られた解を比較した数値実験を行った。
論文参考訳（メタデータ） (2024-11-29T10:43:23Z)
Homotopy Continuation Made Easy: Regression-based Online Simulation of Starting Problem-Solution Pairs [17.543457476766367]
ホモトピーの継続は除去テンプレートの代替物として導入されました我々の革新は、入力対応から直接解を予測するためにシミュレーションで訓練された回帰ネットワークを利用することで成り立っている。このエレガントな組み合わせを一般化カメラ切除に適用し、また、難解な一般化された相対ポーズとスケール問題に対する新しい解決策を導入する。
論文参考訳（メタデータ） (2024-11-06T08:22:00Z)
Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces [47.907236421762626]
本研究は、連続状態と作用空間を持つ離散時間割引マルコフ決定過程を研究する。まず、専門家の政策全体にアクセスでき、逆問題に対する解決策の集合を特徴づけるケースについて考察する。
論文参考訳（メタデータ） (2024-05-24T12:53:07Z)
Continuous Tensor Relaxation for Finding Diverse Solutions in Combinatorial Optimization Problems [0.6906005491572401]
本研究では、教師なし学習(UL)に基づくCOソルバのための連続的アン緩和(CTRA)を提案する。 CTRAは、単一のトレーニング実行で多様なソリューションを見つけるための計算効率のよいフレームワークである。数値実験により、CTRAにより、ULベースの解法は、既存の解法を繰り返すよりもはるかに高速にこれらの多様な解を見つけることができることが示された。
論文参考訳（メタデータ） (2024-02-03T15:31:05Z)
HomPINNs: homotopy physics-informed neural networks for solving the inverse problems of nonlinear differential equations with multiple solutions [6.89453634946458]
非線形微分方程式(DE)の逆問題を解決するためにホモトピー物理情報ニューラルネットワーク(HomPINN)を提案する。提案するフレームワークは、DEC制約を順守しながら、さまざまなソリューションにわたるラベルなしの観測を同時に近似するためにNNを使うことから始まる。提案手法はスケーラブルで適応可能であり,複数の解と未知パラメータを用いたDESの解法として有効であることを示す。
論文参考訳（メタデータ） (2023-04-06T01:20:23Z)
Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文参考訳（メタデータ） (2022-11-14T21:54:31Z)
Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文参考訳（メタデータ） (2022-01-28T05:53:28Z)
Instance-Dependent Confidence and Early Stopping for Reinforcement Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文参考訳（メタデータ） (2022-01-21T04:25:35Z)
Discovering Diverse Solutions in Deep Reinforcement Learning [84.45686627019408]
強化学習アルゴリズムは通常、特定のタスクの単一のソリューションを学ぶことに限定される。連続的あるいは離散的な低次元潜在変数に条件付きポリシーを訓練することにより、無限に多くの解を学習できるRL法を提案する。
論文参考訳（メタデータ） (2021-03-12T04:54:31Z)
Reversible Action Design for Combinatorial Optimization with Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文参考訳（メタデータ） (2021-02-14T18:05:42Z)
Dynamic Federated Learning [57.14673504239551]
フェデレートラーニング(Federated Learning)は、マルチエージェント環境における集中的なコーディネーション戦略の包括的用語として登場した。我々は、各イテレーションにおいて、利用可能なエージェントのランダムなサブセットがそのデータに基づいてローカル更新を実行する、フェデレートされた学習モデルを考える。集約最適化問題に対する真の最小化器上の非定常ランダムウォークモデルの下で、アーキテクチャの性能は、各エージェントにおけるデータ変動率、各エージェントにおけるモデル変動率、アルゴリズムの学習率に逆比例する追跡項の3つの要因によって決定されることを示す。
論文参考訳（メタデータ） (2020-02-20T15:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。