論文の概要: Offline Multi-task Transfer RL with Representational Penalization
- arxiv url: http://arxiv.org/abs/2402.12570v1
- Date: Mon, 19 Feb 2024 21:52:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:02:22.495405
- Title: Offline Multi-task Transfer RL with Representational Penalization
- Title(参考訳): 表現ペナル化を考慮したオフラインマルチタスク転送RL
- Authors: Avinandan Bose, Simon Shaolei Du, Maryam Fazel
- Abstract要約: オフライン強化学習(RL)における表現伝達の問題について検討する。
本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 26.114893629771736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of representation transfer in offline Reinforcement
Learning (RL), where a learner has access to episodic data from a number of
source tasks collected a priori, and aims to learn a shared representation to
be used in finding a good policy for a target task. Unlike in online RL where
the agent interacts with the environment while learning a policy, in the
offline setting there cannot be such interactions in either the source tasks or
the target task; thus multi-task offline RL can suffer from incomplete
coverage.
We propose an algorithm to compute pointwise uncertainty measures for the
learnt representation, and establish a data-dependent upper bound for the
suboptimality of the learnt policy for the target task. Our algorithm leverages
the collective exploration done by source tasks to mitigate poor coverage at
some points by a few tasks, thus overcoming the limitation of needing uniformly
good coverage for a meaningful transfer by existing offline algorithms. We
complement our theoretical results with empirical evaluation on a
rich-observation MDP which requires many samples for complete coverage. Our
findings illustrate the benefits of penalizing and quantifying the uncertainty
in the learnt representation.
- Abstract(参考訳): 本研究では,オフライン強化学習(rl)における表現伝達の問題点について検討し,学習者が事前に収集した複数のソースタスクからエピソディクスデータにアクセスし,対象タスクの適切なポリシを見つけるために使用する共有表現を学ぶことを目的としている。
エージェントがポリシーを学習しながら環境と対話するオンラインrlとは異なり、オフライン設定では、ソースタスクかターゲットタスクのいずれかにそのようなインタラクションが存在しないため、マルチタスクのオフラインrlは、不完全なカバレッジに苦しむ可能性がある。
本研究では,学習者表現のためのポイントワイズ不確実性尺度を算出し,対象課題に対する学習者方針の最適性に対するデータ依存上界を確立するアルゴリズムを提案する。
提案手法は,ソースタスクが行う集団的探索を活用し,ある時点でのカバレッジの低下をいくつかのタスクで軽減し,既存のオフラインアルゴリズムによる有意義な転送に一様に適切なカバレッジを必要とするという限界を克服する。
本理論の結果は, 完全カバレッジに多くのサンプルを必要とするリッチ・オブザーブメント MDP の実証評価と補完するものである。
本研究は,学習表現における不確かさを罰し,定量化する効果を示す。
関連論文リスト
- Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning [13.908826484332282]
マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。
本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-05-03T19:43:30Z) - Offline Multitask Representation Learning for Reinforcement Learning [86.26066704016056]
強化学習(RL)におけるオフラインマルチタスク表現学習の研究
オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。
我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
論文 参考訳(メタデータ) (2024-03-18T08:50:30Z) - Disentangling Policy from Offline Task Representation Learning via
Adversarial Data Augmentation [29.49883684368039]
オフラインメタ強化学習(OMRL)は、静的データセットに依存して、エージェントが新しいタスクに取り組むことができる。
本稿では,タスク表現学習から行動ポリシーの影響を解き放つ新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:38:36Z) - Generalizable Task Representation Learning for Offline
Meta-Reinforcement Learning with Data Limitations [22.23114883485924]
本稿では,データ制限に直面した一般化可能なタスク表現を学習するための新しいアルゴリズムGENTLEを提案する。
GENTLEは、タスクの特徴を抽出するために、エンコーダ・デコーダアーキテクチャであるTask Auto-Encoder(TAE)を使用している。
限られた行動多様性の影響を軽減するため,TAEのトレーニングに使用されるデータ分布とテスト中に発生するデータ分布とを整合させる擬似遷移を構築した。
論文 参考訳(メタデータ) (2023-12-26T07:02:12Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Learning Action Translator for Meta Reinforcement Learning on
Sparse-Reward Tasks [56.63855534940827]
本研究は,訓練作業中の行動伝達子を学習するための,新たな客観的機能を導入する。
理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近似可能であることを検証する。
本稿では,アクショントランスレータとコンテキストベースメタRLアルゴリズムを組み合わせることで,データ収集の効率化と,メタトレーニング時の効率的な探索を提案する。
論文 参考訳(メタデータ) (2022-07-19T04:58:06Z) - Provable Benefit of Multitask Representation Learning in Reinforcement
Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。
我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文 参考訳(メタデータ) (2022-06-13T04:29:02Z) - Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。
本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文 参考訳(メタデータ) (2022-05-29T04:31:29Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Conservative Data Sharing for Multi-Task Offline Reinforcement Learning [119.85598717477016]
オフラインRLの自然なユースケースは、さまざまなシナリオで収集された大量のデータをプールして、さまざまなタスクを解決できるような設定にある、と私たちは主張する。
タスク固有のデータに対する改善に基づいてデータをルーティングするマルチタスクオフラインRLにおけるデータ共有手法を開発した。
論文 参考訳(メタデータ) (2021-09-16T17:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。