論文の概要: Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18447v2
- Date: Thu, 29 May 2025 14:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 13:10:25.71364
- Title: Pessimism Principle Can Be Effective: Towards a Framework for Zero-Shot Transfer Reinforcement Learning
- Title(参考訳): ペシミズムの原則は効果的である:ゼロショットトランスファー強化学習のためのフレームワークを目指して
- Authors: Chi Zhang, Ziying Jia, George K. Atia, Sihong He, Yue Wang,
- Abstract要約: 伝達強化学習は、限られたデータを持つターゲット環境に対して、ほぼ最適ポリシーを導出することを目的としている。
転送されたポリシのパフォーマンス保証の欠如と、複数のソースドメインが関与している場合の負の転送のリスクだ。
本稿では、対象ドメインの性能を保守的に推定し最適化する悲観主義の原理に基づく新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.927397451723719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer reinforcement learning aims to derive a near-optimal policy for a target environment with limited data by leveraging abundant data from related source domains. However, it faces two key challenges: the lack of performance guarantees for the transferred policy, which can lead to undesired actions, and the risk of negative transfer when multiple source domains are involved. We propose a novel framework based on the pessimism principle, which constructs and optimizes a conservative estimation of the target domain's performance. Our framework effectively addresses the two challenges by providing an optimized lower bound on target performance, ensuring safe and reliable decisions, and by exhibiting monotonic improvement with respect to the quality of the source domains, thereby avoiding negative transfer. We construct two types of conservative estimations, rigorously characterize their effectiveness, and develop efficient distributed algorithms with convergence guarantees. Our framework provides a theoretically sound and practically robust solution for transfer learning in reinforcement learning.
- Abstract(参考訳): 転送強化学習は、関連するソースドメインからの豊富なデータを活用することで、限られたデータを持つターゲット環境に対して、ほぼ最適ポリシーを導出することを目的としている。
しかし、トランスファーポリシーのパフォーマンス保証の欠如は、望ましくないアクションを引き起こす可能性があることと、複数のソースドメインが関与している場合の負の転送のリスクである。
本稿では、対象ドメインの性能を保守的に推定し最適化する悲観主義の原理に基づく新しいフレームワークを提案する。
本フレームワークは,目標性能を最適化し,安全かつ信頼性の高い決定を確実にし,ソースドメインの品質に対する単調な改善を示すことにより,負の転送を回避することによって,この2つの課題を効果的に解決する。
我々は2種類の保守的推定を行い、その有効性を厳格に評価し、収束保証を伴う効率的な分散アルゴリズムを開発した。
我々のフレームワークは、強化学習における伝達学習のための理論的に健全で実用的な堅牢なソリューションを提供する。
関連論文リスト
- Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。
我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。
そして、推定報酬を最適化することで最適な政策を学ぶ。
論文 参考訳(メタデータ) (2025-01-14T12:33:02Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Constrained Variational Policy Optimization for Safe Reinforcement
Learning [40.38842532850959]
安全強化学習は、安全クリティカルなアプリケーションにデプロイする前に、一定の制約を満たすポリシーを学ぶことを目的としている。
主要な制約付き最適化フレームワークとしての原始双対は不安定な問題に悩まされ、最適性の保証が欠如している。
本稿では,新しい確率的推論の観点から問題を克服し,安全政策を学習するための期待最大化方式を提案する。
論文 参考訳(メタデータ) (2022-01-28T04:24:09Z) - Latent-Optimized Adversarial Neural Transfer for Sarcasm Detection [50.29565896287595]
サーカズム検出のための共通データセットを活用するために,転送学習を適用する。
異なる損失が互いに対応できる汎用的な潜時最適化戦略を提案します。
特に、isarcasmデータセットの以前の状態よりも10.02%の絶対性能向上を達成している。
論文 参考訳(メタデータ) (2021-04-19T13:07:52Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Contradictory Structure Learning for Semi-supervised Domain Adaptation [67.89665267469053]
現在の逆順応法は、クロスドメインの特徴を整列させようとする。
1)条件分布ミスマッチ、2)決定境界のソース領域へのバイアス。
本稿では,対向構造の学習を統一することで,半教師付きドメイン適応のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-06T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。