Fugu-MT 論文翻訳(概要): Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations

論文の概要: Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations

arxiv url: http://arxiv.org/abs/2505.08619v1
Date: Tue, 13 May 2025 14:38:25 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-14 20:57:54.618866
Title: Cost Function Estimation Using Inverse Reinforcement Learning with Minimal Observations
Title（参考訳）: 最小観測値を用いた逆強化学習によるコスト関数推定
Authors: Sarmad Mehrdad, Avadesh Meduri, Ludovic Righetti,
Abstract要約: 連続空間における最適コスト関数を推定するための反復逆強化学習アルゴリズムを提案する。本アルゴリズムは,分割関数に対する各観測の有効性を個別に調整することができ,大きなサンプルセットを必要としない。
参考スコア（独自算出の注目度）: 13.08316935335288
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present an iterative inverse reinforcement learning algorithm to infer optimal cost functions in continuous spaces. Based on a popular maximum entropy criteria, our approach iteratively finds a weight improvement step and proposes a method to find an appropriate step size that ensures learned cost function features remain similar to the demonstrated trajectory features. In contrast to similar approaches, our algorithm can individually tune the effectiveness of each observation for the partition function and does not need a large sample set, enabling faster learning. We generate sample trajectories by solving an optimal control problem instead of random sampling, leading to more informative trajectories. The performance of our method is compared to two state of the art algorithms to demonstrate its benefits in several simulated environments.
Abstract（参考訳）: 連続空間における最適コスト関数を推定するための反復逆強化学習アルゴリズムを提案する。提案手法は,一般的な最大エントロピー基準に基づいて,重み付けのステップを反復的に見つけ,学習コスト関数の特徴が実験対象の軌跡に類似していることを保証するための適切なステップサイズを求める手法を提案する。類似のアプローチとは対照的に,本アルゴリズムは分割関数に対する各観測の有効性を個別に調整することができ,大きなサンプルセットを必要としないため,より高速な学習が可能となる。我々は、ランダムサンプリングの代わりに最適な制御問題を解くことで、サンプル軌跡を生成し、より情報的な軌跡を生み出す。提案手法の性能を2つの最先端アルゴリズムと比較し,その利点を複数のシミュレーション環境で示す。

関連論文リスト

Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文参考訳（メタデータ） (2023-07-08T15:41:48Z)
Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文参考訳（メタデータ） (2023-06-21T16:04:03Z)
Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文参考訳（メタデータ） (2023-06-13T01:18:16Z)
Representation Learning with Multi-Step Inverse Kinematics: An Efficient and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文参考訳（メタデータ） (2023-04-12T14:51:47Z)
Unsupervised feature selection via self-paced learning and low-redundant regularization [6.083524716031565]
自己評価学習とサブスペース学習の枠組みを統合することにより,教師なしの特徴選択を提案する。この手法の収束性は理論的および実験的に証明される。実験の結果,提案手法はクラスタリング法の性能を向上し,他の比較アルゴリズムよりも優れていることがわかった。
論文参考訳（メタデータ） (2021-12-14T08:28:19Z)
Adaptive Sampling Quasi-Newton Methods for Zeroth-Order Stochastic Optimization [1.7513645771137178]
勾配情報のない制約のない最適化問題を考察する。適応的なサンプリング準ニュートン法を提案し、共通乱数フレームワーク内の有限差を用いてシミュレーション関数の勾配を推定する。そこで本研究では, 標準試験と内積準ニュートン試験の修正版を開発し, 近似に使用する試料サイズを制御し, 最適解の近傍に大域収束結果を与える。
論文参考訳（メタデータ） (2021-09-24T21:49:25Z)
Outlier-Robust Sparse Estimation via Non-Convex Optimization [73.18654719887205]
空間的制約が存在する場合の高次元統計量と非破壊的最適化の関連について検討する。これらの問題に対する新規で簡単な最適化法を開発した。結論として、効率よくステーションに収束する一階法は、これらのタスクに対して効率的なアルゴリズムを導出する。
論文参考訳（メタデータ） (2021-09-23T17:38:24Z)
Minibatch and Momentum Model-based Methods for Stochastic Non-smooth Non-convex Optimization [3.4809730725241597]
モデルベース手法に対する2つの重要な拡張を行う。まず,各イテレーションのモデル関数を近似するために,サンプルの集合を用いる新しいミニバッチを提案する。第二に、運動量法の成功により、新しい凸モデルを提案する。
論文参考訳（メタデータ） (2021-06-06T05:31:57Z)
Asymptotic study of stochastic adaptive algorithm in non-convex landscape [2.1320960069210484]
本稿では、最適化や機械学習に広く用いられる適応アルゴリズムの仮定特性について検討する。このうちAdagradとRmspropは、ブラックボックスのディープラーニングアルゴリズムの大部分に関与している。
論文参考訳（メタデータ） (2020-12-10T12:54:45Z)
Sequential Subspace Search for Functional Bayesian Optimization Incorporating Experimenter Intuition [63.011641517977644]
本アルゴリズムは,実験者のガウス過程から引き出された一組の引き数で区切られた関数空間の有限次元ランダム部分空間列を生成する。標準ベイズ最適化は各部分空間に適用され、次の部分空間の出発点(オリジン)として用いられる最良の解である。シミュレーションおよび実世界の実験,すなわちブラインド関数マッチング,アルミニウム合金の最適析出強化関数の探索,深層ネットワークの学習速度スケジュール最適化において,本アルゴリズムを検証した。
論文参考訳（メタデータ） (2020-09-08T06:54:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。