論文の概要: On Reward Transferability in Adversarial Inverse Reinforcement Learning: Insights from Random Matrix Theory
- arxiv url: http://arxiv.org/abs/2410.07643v2
- Date: Mon, 30 Dec 2024 14:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:03:06.873353
- Title: On Reward Transferability in Adversarial Inverse Reinforcement Learning: Insights from Random Matrix Theory
- Title(参考訳): 逆逆強化学習における逆転送性について:ランダム行列理論からの考察
- Authors: Yangchun Zhang, Wang Zhou, Yirui Zhou,
- Abstract要約: 逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。
本稿では,状態空間が無限大となるような高次元シナリオでAIRLを再検討する。
転送の制限はAIRLフレームワーク自体に固有のものではなく、代わりにその内部で使用される強化学習アルゴリズムのトレーニング分散に関連していることを示す。
- 参考スコア(独自算出の注目度): 1.1394969272703013
- License:
- Abstract: In the context of inverse reinforcement learning (IRL) with a single expert, adversarial inverse reinforcement learning (AIRL) serves as a foundational approach to providing comprehensive and transferable task descriptions. However, AIRL faces practical performance challenges, primarily stemming from the framework's overly idealized decomposability condition, the unclear proof regarding the potential equilibrium in reward recovery, or questionable robustness in high-dimensional environments. This paper revisits AIRL in \textbf{high-dimensional scenarios where the state space tends to infinity}. Specifically, we first establish a necessary and sufficient condition for reward transferability by examining the rank of the matrix derived from subtracting the identity matrix from the transition matrix. Furthermore, leveraging random matrix theory, we analyze the spectral distribution of this matrix, demonstrating that our rank criterion holds with high probability even when the transition matrices are unobservable. This suggests that the limitations on transfer are not inherent to the AIRL framework itself, but are instead related to the training variance of the reinforcement learning algorithms employed within it. Based on this insight, we propose a hybrid framework that integrates on-policy proximal policy optimization in the source environment with off-policy soft actor-critic in the target environment, leading to significant improvements in reward transfer effectiveness.
- Abstract(参考訳): 逆強化学習(IRL)の文脈では、逆強化学習(AIRL)は包括的で伝達可能なタスク記述を提供するための基礎的なアプローチである。
しかしながら、AIRLは、主にフレームワークの過度に理想化された分解性条件、報酬回復における潜在的均衡、高次元環境における疑わしいロバスト性に関する不明確な証明から生じる、実用的なパフォーマンス上の課題に直面している。
本稿では、状態空間が無限大の傾向にあるような textbf{high-dimensional scenarios において AIRL を再検討する。
具体的には、まず、遷移行列から恒等行列を減じることから導かれる行列のランクを調べることにより、報酬伝達可能性の必要十分条件を確立する。
さらに、ランダム行列理論を利用して、この行列のスペクトル分布を解析し、遷移行列が観測不能である場合でも、我々のランク基準が高い確率で成り立つことを示す。
このことは、転送の制限はAIRLフレームワーク自体に固有のものではなく、代わりにその内部で使用される強化学習アルゴリズムのトレーニング分散に関連していることを示唆している。
この知見に基づき、我々は、ソース環境における政策最適化とターゲット環境におけるソフトアクター批判を統合したハイブリッドフレームワークを提案し、報酬伝達の有効性を著しく改善した。
関連論文リスト
- Gradients can train reward models: An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。
オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。
一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。
以上の結果から,PbMARLの多面的アプローチが示唆された。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。