論文の概要: Reward Transfer from Inverse Reinforcement Learning: A Coupled Minimax Approach
- arxiv url: http://arxiv.org/abs/2605.27834v1
- Date: Wed, 27 May 2026 01:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.676428
- Title: Reward Transfer from Inverse Reinforcement Learning: A Coupled Minimax Approach
- Title(参考訳): 逆強化学習からの逆変換:結合ミニマックスアプローチ
- Authors: Guang-Yuan Hao, Lars van der Laan, Aurélien Bibaut, Nathan Kallus,
- Abstract要約: 本研究では, ある環境における専門家によるデモンストレーションから, 異なる環境下での強化学習への逆強化学習を用いた報酬の伝達について検討した。
我々は,ベルマン方程式の連成系として,原点および対象環境にまたがる問題を定式化する。
逐次的アプローチとは対照的に、結合されたアプローチは、ソースベルマン残差の1次的影響を除去する。
- 参考スコア(独自算出の注目度): 38.74706512581043
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the transfer of rewards learned using inverse reinforcement learning from expert demonstrations in one environment to reinforcement learning in a new, different environment. This arises naturally when demonstrations are collected in a controlled environment. We formulate the problem as a joint system of Bellman equations across the source and target environments and develop minimax estimators for the target soft-$q$-function. Whereas a sequential solution approach first estimates the source reward and then plugs it into the target control problem, a coupled approach solves the source and target system of equations jointly. We show that, in contrast to the sequential approach, the coupled approach removes the first-order influence of source Bellman residual error. We characterize the local behavior of each approach, develop finite-sample soft-$q$-function error bounds, and prove regret guarantees for the resulting soft-control policy. An empirical investigation using a sepsis simulator validates the theoretical comparison.
- Abstract(参考訳): 本研究では, ある環境における専門家によるデモンストレーションから, 異なる環境下での強化学習への逆強化学習を用いた報酬の伝達について検討した。
これは、デモが制御された環境で収集されたときに自然に発生する。
我々は,ベルマン方程式の原点および対象環境間の連成系として問題を定式化し,対象ソフト$q$関数に対するミニマックス推定器を開発する。
逐次解法は、まずソース報酬を推定し、次にターゲット制御問題にプラグインするが、結合したアプローチは、方程式のソースとターゲットのシステムを共同で解く。
逐次的アプローチとは対照的に、結合されたアプローチは、ソースベルマン残差の1次的影響を除去する。
我々は,各アプローチの局所的挙動を特徴付け,有限サンプルソフト-$q$関数誤差境界を開発し,その結果のソフトコントロールポリシーに対する後悔の保証を証明した。
セシスシミュレータを用いた実験的検討により, 理論的比較が検証された。
関連論文リスト
- Accelerating trajectory optimization with Sobolev-trained diffusion policies [12.684196947818103]
軌道最適化(TO)ソルバは、既知の系力学を利用して局所最適軌道を計算する。
欠点は、各新しい問題インスタンスが独立して解決されることです。
効率性を改善するために、学習されたポリシーによって生成された最初の推測でTOをウォームスタートする自然なアプローチがある。
論文 参考訳(メタデータ) (2026-04-21T03:00:52Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Finite-Time Convergence and Sample Complexity of Actor-Critic Multi-Objective Reinforcement Learning [20.491176017183044]
本稿では多目的強化学習(MORL)問題に取り組む。
MOACと呼ばれる革新的なアクター批判アルゴリズムを導入し、競合する報酬信号間のトレードオフを反復的に行うことでポリシーを見出す。
論文 参考訳(メタデータ) (2024-05-05T23:52:57Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - Robust Imitation via Mirror Descent Inverse Reinforcement Learning [18.941048578572577]
本稿では,制約付き凸問題の反復解である報酬関数列を予測することを提案する。
提案したミラー降下更新規則は,ブレグマンの発散を最小化できることを示す。
我々のIRL法は, 既存手法よりも高い性能を示した。
論文 参考訳(メタデータ) (2022-10-20T12:25:21Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - The Simulator: Understanding Adaptive Sampling in the
Moderate-Confidence Regime [52.38455827779212]
エミュレータと呼ばれる適応サンプリングを解析するための新しい手法を提案する。
適切なログファクタを組み込んだトップk問題の最初のインスタンスベースの下位境界を証明します。
我々の新しい分析は、後者の問題に対するこの種の最初のエミュレータであるベストアームとトップkの識別に、シンプルでほぼ最適であることを示した。
論文 参考訳(メタデータ) (2017-02-16T23:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。