Fugu-MT 論文翻訳(概要): On Reward Transferability in Adversarial Inverse Reinforcement Learning: Insights from Random Matrix Theory

論文の概要: On Reward Transferability in Adversarial Inverse Reinforcement Learning: Insights from Random Matrix Theory

arxiv url: http://arxiv.org/abs/2410.07643v2
Date: Mon, 30 Dec 2024 14:18:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 22:07:02.34949
Title: On Reward Transferability in Adversarial Inverse Reinforcement Learning: Insights from Random Matrix Theory
Title（参考訳）: 逆逆強化学習における逆転送性について:ランダム行列理論からの考察
Authors: Yangchun Zhang, Wang Zhou, Yirui Zhou,
Abstract要約: 逆逆強化学習(AIRL)は、包括的で伝達可能なタスク記述を提供するための基礎的なアプローチとして機能する。本稿では,状態空間が無限大となるような高次元シナリオでAIRLを再検討する。転送の制限はAIRLフレームワーク自体に固有のものではなく、代わりにその内部で使用される強化学習アルゴリズムのトレーニング分散に関連していることを示す。
参考スコア（独自算出の注目度）: 1.1394969272703013
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the context of inverse reinforcement learning (IRL) with a single expert, adversarial inverse reinforcement learning (AIRL) serves as a foundational approach to providing comprehensive and transferable task descriptions. However, AIRL faces practical performance challenges, primarily stemming from the framework's overly idealized decomposability condition, the unclear proof regarding the potential equilibrium in reward recovery, or questionable robustness in high-dimensional environments. This paper revisits AIRL in \textbf{high-dimensional scenarios where the state space tends to infinity}. Specifically, we first establish a necessary and sufficient condition for reward transferability by examining the rank of the matrix derived from subtracting the identity matrix from the transition matrix. Furthermore, leveraging random matrix theory, we analyze the spectral distribution of this matrix, demonstrating that our rank criterion holds with high probability even when the transition matrices are unobservable. This suggests that the limitations on transfer are not inherent to the AIRL framework itself, but are instead related to the training variance of the reinforcement learning algorithms employed within it. Based on this insight, we propose a hybrid framework that integrates on-policy proximal policy optimization in the source environment with off-policy soft actor-critic in the target environment, leading to significant improvements in reward transfer effectiveness.
Abstract（参考訳）: 逆強化学習(IRL)の文脈では、逆強化学習(AIRL)は包括的で伝達可能なタスク記述を提供するための基礎的なアプローチである。しかしながら、AIRLは、主にフレームワークの過度に理想化された分解性条件、報酬回復における潜在的均衡、高次元環境における疑わしいロバスト性に関する不明確な証明から生じる、実用的なパフォーマンス上の課題に直面している。本稿では、状態空間が無限大の傾向にあるような textbf{high-dimensional scenarios において AIRL を再検討する。具体的には、まず、遷移行列から恒等行列を減じることから導かれる行列のランクを調べることにより、報酬伝達可能性の必要十分条件を確立する。さらに、ランダム行列理論を利用して、この行列のスペクトル分布を解析し、遷移行列が観測不能である場合でも、我々のランク基準が高い確率で成り立つことを示す。このことは、転送の制限はAIRLフレームワーク自体に固有のものではなく、代わりにその内部で使用される強化学習アルゴリズムのトレーニング分散に関連していることを示唆している。この知見に基づき、我々は、ソース環境における政策最適化とターゲット環境におけるソフトアクター批判を統合したハイブリッドフレームワークを提案し、報酬伝達の有効性を著しく改善した。

関連論文リスト

Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文参考訳（メタデータ） (2025-07-23T09:12:25Z)
Global Convergence of Iteratively Reweighted Least Squares for Robust Subspace Recovery [19.37238379592233]
反復重み付き最小広場(IRLS)は、部分空間推定に対するエレガントで経験的に効果的なアプローチである。本稿では, 決定論的条件下では, 動的正則化を持つ不変IRLSが基底部分空間に線形に収束することを示す。我々はこれらの保証を、事前の回復理論を欠いた部分空間推定に拡張する。
論文参考訳（メタデータ） (2025-06-25T15:23:32Z)
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model [84.00480999255628]
大規模言語モデル(LLM)の安全性アライメントのための強化学習アルゴリズムは,分散シフトの課題に直面している。現在のアプローチでは、ターゲットポリシーからのオンラインサンプリングを通じてこの問題に対処するのが一般的である。モデル固有の安全判断能力を活用して報酬信号を抽出する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-13T06:40:34Z)
Gradients can train reward models: An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文参考訳（メタデータ） (2025-02-19T22:22:20Z)
Robust Offline Reinforcement Learning with Linearly Structured $f$-Divergence Regularization [10.465789490644031]
我々は、ロバストな正則化マルコフ決定プロセスのための新しいフレームワーク(d$-RRMDP)を提案する。オフラインRL設定のために、ロバスト正規化悲観的値イテレーション(R2PVI)と呼ばれるアルゴリズム群を開発する。
論文参考訳（メタデータ） (2024-11-27T18:57:03Z)
Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment [7.477559660351106]
模倣学習(IL)アルゴリズムは、逆強化学習(IRL)を用いて、実演と整合した報酬関数を推論する。本稿では,従来のデータアライメントよりもタスクアライメントを優先するIRLベースのILのための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-31T07:08:14Z)
Preference-Based Multi-Agent Reinforcement Learning: Data Coverage and Algorithmic Techniques [65.55451717632317]
PbMARL(Preference-based Multi-Agent Reinforcement Learning)について検討する。一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ平衡を同定する。以上の結果から,PbMARLの多面的アプローチが示唆された。
論文参考訳（メタデータ） (2024-09-01T13:14:41Z)
Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文参考訳（メタデータ） (2023-05-25T21:54:22Z)
DIRECT: Learning from Sparse and Shifting Rewards using Discriminative Reward Co-Training [13.866486498822228]
深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。 DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
論文参考訳（メタデータ） (2023-01-18T10:42:00Z)
Learning Transferable Reward for Query Object Localization with Policy Adaptation [49.994989590997655]
我々は、順序距離学習によって表される模範集合を用いて、伝達可能な報酬信号を学習する。提案手法は,報酬信号が手軽に利用できない新しい環境へのテスト時ポリシー適用を可能にする。
論文参考訳（メタデータ） (2022-02-24T22:52:14Z)
A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。 D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文参考訳（メタデータ） (2022-02-19T20:22:04Z)
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文参考訳（メタデータ） (2021-10-22T22:07:51Z)
OPIRL: Sample Efficient Off-Policy Inverse Reinforcement Learning via Distribution Matching [12.335788185691916]
逆強化学習(IRL)は、報酬工学が面倒なシナリオでは魅力的です。以前のIRLアルゴリズムは、安定かつ最適なパフォーマンスのために現在のポリシーから集中的にサンプリングする必要があるオン・ポリティ転移を使用する。我々は、オフ・ポリティ・逆強化学習(OPIRL)を紹介し、オフ・ポリティィ・データ配信をオン・ポリティィではなく、オフ・ポリティィ・データ配信を採用する。
論文参考訳（メタデータ） (2021-09-09T14:32:26Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文参考訳（メタデータ） (2021-02-25T21:33:47Z)
Supercharging Imbalanced Data Learning With Energy-based Contrastive Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文参考訳（メタデータ） (2020-11-25T00:13:11Z)
Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。 BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文参考訳（メタデータ） (2020-07-24T01:52:11Z)
Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文参考訳（メタデータ） (2020-02-19T07:30:57Z)
Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文参考訳（メタデータ） (2020-01-23T02:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。