Fugu-MT 論文翻訳(概要): Offline Multitask Representation Learning for Reinforcement Learning

論文の概要: Offline Multitask Representation Learning for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2403.11574v2
Date: Thu, 31 Oct 2024 16:29:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.428313
Title: Offline Multitask Representation Learning for Reinforcement Learning
Title（参考訳）: 強化学習のためのオフラインマルチタスク表現学習
Authors: Haque Ishfaq, Thanh Nguyen-Tang, Songtao Feng, Raman Arora, Mengdi Wang, Ming Yin, Doina Precup,
Abstract要約: 強化学習(RL)におけるオフラインマルチタスク表現学習の研究オフラインマルチタスク表現学習のための新しいアルゴリズム MORL を提案する。我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。
参考スコア（独自算出の注目度）: 86.26066704016056
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study offline multitask representation learning in reinforcement learning (RL), where a learner is provided with an offline dataset from different tasks that share a common representation and is asked to learn the shared representation. We theoretically investigate offline multitask low-rank RL, and propose a new algorithm called MORL for offline multitask representation learning. Furthermore, we examine downstream RL in reward-free, offline and online scenarios, where a new task is introduced to the agent that shares the same representation as the upstream offline tasks. Our theoretical results demonstrate the benefits of using the learned representation from the upstream offline task instead of directly learning the representation of the low-rank model.
Abstract（参考訳）: 本研究では、強化学習(RL)におけるオフラインマルチタスク表現学習について検討し、共通表現を共有するタスクからオフラインデータセットを学習者に提供し、共有表現の学習を依頼する。我々は、オフラインマルチタスク低ランクRLを理論的に検討し、オフラインマルチタスク表現学習のためのMORLと呼ばれる新しいアルゴリズムを提案する。さらに、ダウンストリームRLを報酬なし、オフライン、オンラインのシナリオで検証し、アップストリームオフラインタスクと同じ表現を共有するエージェントに新しいタスクを導入する。我々の理論的結果は、ローランクモデルの表現を直接学習するのではなく、上流のオフラインタスクから学習した表現を使用することの利点を実証する。

関連論文リスト

Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。 280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文参考訳（メタデータ） (2025-05-29T06:41:45Z)
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces [4.27038429382431]
我々は、オフライン強化学習をマルチモーダル言語モデルと事前学習言語モデルを統合することで教師付き学習タスクに変換する。提案手法では,画像から得られた状態情報と,テキストから得られた行動関連データを取り入れた。提案手法は, Atari と OpenAI Gym の環境評価により, 現在のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-02-20T09:15:50Z)
Offline Multi-task Transfer RL with Representational Penalization [26.114893629771736]
オフライン強化学習(RL)における表現伝達の問題について検討する。本稿では,学習者表現に対する不確実性度を計算するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-19T21:52:44Z)
On Context Distribution Shift in Task Representation Learning for Offline Meta RL [7.8317653074640186]
我々は、文脈に基づくOMRL、特にOMRLのタスク表現学習の課題に焦点を当てる。この問題を解決するために、堅牢なタスクコンテキストエンコーダをトレーニングするためのハードサンプリングベースの戦略を提案する。
論文参考訳（メタデータ） (2023-04-01T16:21:55Z)
Provable Benefit of Multitask Representation Learning in Reinforcement Learning [46.11628795660159]
本稿では,低ランクマルコフ決定過程(MDP)モデルに基づく表現学習の利点を理論的に特徴づける。我々の知る限りでは、探索に基づく報酬なしマルチタスク強化学習における表現学習の利点を特徴づける最初の理論的研究である。
論文参考訳（メタデータ） (2022-06-13T04:29:02Z)
Provable Benefits of Representational Transfer in Reinforcement Learning [59.712501044999875]
本稿では,RLにおける表現伝達の問題について検討し,エージェントがまず複数のソースタスクを事前訓練し,共有表現を発見する。本稿では,ソースタスクに対する生成的アクセスが与えられた場合,次に続く線形RL手法がほぼ最適ポリシーに迅速に収束する表現を発見できることを示す。
論文参考訳（メタデータ） (2022-05-29T04:31:29Z)
Provably Efficient Representation Selection in Low-rank Markov Decision Processes: From Online to Offline RL [84.14947307790361]
オンラインおよびオフラインの強化学習における表現学習のための効率的なアルゴリズムであるReLEXを提案する。 Re-UCBと呼ばれるReLEXのオンラインバージョンは、表現の選択なしでは最先端のアルゴリズムよりも常に悪い性能を発揮することを示す。オフラインのReLEX-LCBに対して、表現クラスが状態-作用空間をカバーできる場合、アルゴリズムが最適なポリシーを見つけることができることを示す。
論文参考訳（メタデータ） (2021-06-22T17:16:50Z)
Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文参考訳（メタデータ） (2021-02-22T18:56:34Z)
Return-Based Contrastive Representation Learning for Reinforcement Learning [126.7440353288838]
そこで本研究では,学習表現に異なる戻り値を持つ状態-動作ペアを判別させる新しい補助タスクを提案する。アルゴリズムはatariゲームやdeepmindコントロールスイートの複雑なタスクのベースラインを上回っています。
論文参考訳（メタデータ） (2021-02-22T13:04:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。