Fugu-MT 論文翻訳(概要): Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning

論文の概要: Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2204.07729v1
Date: Sat, 16 Apr 2022 05:55:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-19 15:55:24.007898
Title: Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning
Title（参考訳）: 深層強化学習におけるスケーラブルな観測モデルを用いた効率よいベイズ政策再利用
Authors: Donghan Xie, Zhi Wang, Chunlin Chen, Daoyi Dong
Abstract要約: 深部強化学習(DRL)におけるより効率的な政策伝達を実現するため,改良されたベイズ政策再利用(BPR)手法を提案する。ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号としてエピソードリターンを使用し、エピソードの終了まで取得できない。我々は,より高速かつ高精度なタスク推論のための観測信号として,情報的かつ即時的な状態遷移サンプルを用いる。
参考スコア（独自算出の注目度）: 9.854975702211165
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bayesian policy reuse (BPR) is a general policy transfer framework for selecting a source policy from an offline library by inferring the task belief based on some observation signals and a trained observation model. In this paper, we propose an improved BPR method to achieve more efficient policy transfer in deep reinforcement learning (DRL). First, most BPR algorithms use the episodic return as the observation signal that contains limited information and cannot be obtained until the end of an episode. Instead, we employ the state transition sample, which is informative and instantaneous, as the observation signal for faster and more accurate task inference. Second, BPR algorithms usually require numerous samples to estimate the probability distribution of the tabular-based observation model, which may be expensive and even infeasible to learn and maintain, especially when using the state transition sample as the signal. Hence, we propose a scalable observation model based on fitting state transition functions of source tasks from only a small number of samples, which can generalize to any signals observed in the target task. Moreover, we extend the offline-mode BPR to the continual learning setting by expanding the scalable observation model in a plug-and-play fashion, which can avoid negative transfer when faced with new unknown tasks. Experimental results show that our method can consistently facilitate faster and more efficient policy transfer.
Abstract（参考訳）: ベイジアンポリシー再利用(bpr)は、いくつかの観測信号と訓練された観測モデルに基づいてタスク信念を推論することにより、オフラインライブラリからソースポリシーを選択するための一般的なポリシー転送フレームワークである。本稿では,深部強化学習(DRL)におけるより効率的な政策伝達を実現するための改良されたBPR手法を提案する。第一に、ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号として、エピソードの終わりまで取得できないエピソードリターンを使用する。代わりに、より高速で正確なタスク推論のための観測信号として、情報的かつ瞬時的な状態遷移サンプルを用いる。第二に、BPRアルゴリズムは、特に状態遷移サンプルを信号として使用する場合、高コストで、学習や維持が不可能なグラフベースの観測モデルの確率分布を推定するために、多くのサンプルを必要とする。そこで本研究では,対象タスクで観測される信号に一般化可能な,少数のサンプルのみからのソースタスクの状態遷移関数を適合させたスケーラブルな観測モデルを提案する。さらに,スケーラブルな観察モデルをプラグ・アンド・プレイ方式で拡張することで,新たな未知のタスクに直面する場合の負の転送を回避し,オフラインモードbprを連続学習環境に拡張する。実験の結果,提案手法はより高速かつ効率的な政策伝達を継続的に促進できることが判明した。

関連論文リスト

Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2～3倍向上する。
論文参考訳（メタデータ） (2025-06-09T07:32:52Z)
CCDP: Composition of Conditional Diffusion Policies with Guided Sampling [11.667798969178493]
本稿では,以前に失敗した動作を避けるため,サンプリング分布を改良する改良されたサンプリング戦略を提案する。本手法は,探索行動の追加を必要とせずに,回復動作を推定できることを実証する。提案手法では, サンプリングスペースを動的に調整し, 先行サンプルが不足した場合の効率を向上させる低レベルコントローラを提案する。
論文参考訳（メタデータ） (2025-03-19T16:24:55Z)
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
Learn from the Learnt: Source-Free Active Domain Adaptation via Contrastive Sampling and Visual Persistence [60.37934652213881]
ドメイン適応(DA)は、ソースドメインから関連するターゲットドメインへの知識伝達を容易にする。本稿では、ソースデータフリーなアクティブドメイン適応(SFADA)という実用的なDAパラダイムについて検討する。本稿では,学習者学習(LFTL)というSFADAの新たなパラダイムを紹介し,学習した学習知識を事前学習モデルから活用し,余分なオーバーヘッドを伴わずにモデルを積極的に反復する。
論文参考訳（メタデータ） (2024-07-26T17:51:58Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Out-of-Distribution Detection using Neural Activation Prior [15.673290330356194]
アウト・オブ・ディストリビューション検出(OOD)は、機械学習モデルを現実世界にデプロイする上で重要な技術である。 OOD検出のためのシンプルで効果的なニューラルアクティベーションプリミティブ(NAP)を提案する。提案手法は,CIFARベンチマークとImageNetデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2024-02-28T08:45:07Z)
Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization [87.21285093582446]
Diffusion Generative Flow Samplers (DGFS) はサンプルベースのフレームワークであり、学習プロセスを短い部分的軌道セグメントに分解することができる。生成フローネットワーク(GFlowNets)のための理論から着想を得た。
論文参考訳（メタデータ） (2023-10-04T09:39:05Z)
Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文参考訳（メタデータ） (2023-07-24T19:43:22Z)
Model-based trajectory stitching for improved behavioural cloning and its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文参考訳（メタデータ） (2022-12-08T14:18:04Z)
IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文参考訳（メタデータ） (2022-05-19T00:05:03Z)
Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文参考訳（メタデータ） (2021-10-17T15:21:27Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。