Fugu-MT 論文翻訳(概要): Unsupervised-to-Online Reinforcement Learning

論文の概要: Unsupervised-to-Online Reinforcement Learning

arxiv url: http://arxiv.org/abs/2408.14785v1
Date: Tue, 27 Aug 2024 05:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-28 14:54:56.770579
Title: Unsupervised-to-Online Reinforcement Learning
Title（参考訳）: 教師なし-オンライン強化学習
Authors: Junsu Kim, Seohong Park, Sergey Levine,
Abstract要約: Unsupervised-to-online RL (U2O RL) は、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換える。 U2O RLは、複数の下流タスクのために訓練済みのモデルを再利用できるだけでなく、より良い表現も学べる。 U2O RLは、従来のオフライン-オフラインのRLアプローチにマッチしたり、さらに性能が優れていることを実証的に実証する。
参考スコア（独自算出の注目度）: 59.910638327123394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline-to-online reinforcement learning (RL), a framework that trains a policy with offline RL and then further fine-tunes it with online RL, has been considered a promising recipe for data-driven decision-making. While sensible, this framework has drawbacks: it requires domain-specific offline RL pre-training for each task, and is often brittle in practice. In this work, we propose unsupervised-to-online RL (U2O RL), which replaces domain-specific supervised offline RL with unsupervised offline RL, as a better alternative to offline-to-online RL. U2O RL not only enables reusing a single pre-trained model for multiple downstream tasks, but also learns better representations, which often result in even better performance and stability than supervised offline-to-online RL. To instantiate U2O RL in practice, we propose a general recipe for U2O RL to bridge task-agnostic unsupervised offline skill-based policy pre-training and supervised online fine-tuning. Throughout our experiments in nine state-based and pixel-based environments, we empirically demonstrate that U2O RL achieves strong performance that matches or even outperforms previous offline-to-online RL approaches, while being able to reuse a single pre-trained model for a number of different downstream tasks.
Abstract（参考訳）: オフラインとオンラインの強化学習(RL)は、オフラインのRLでポリシーを訓練し、さらにオンラインのRLで微調整するフレームワークであり、データ駆動意思決定のための有望なレシピと考えられている。ドメイン固有のオフラインRL事前トレーニングが必要で、実際は不安定であることが多い。本研究では、オフラインRLの代替として、ドメイン固有の教師なしオフラインRLを非教師なしオフラインRLに置き換えるunsupervised-to-online RL(U2O RL)を提案する。 U2O RLは、複数のダウンストリームタスクのためにトレーニング済みのモデル1つを再利用できるだけでなく、より良い表現も学べる。 U2O RLを実際にインスタンス化するために、タスク非依存のオフラインスキルベースのポリシーを事前学習し、オンライン微調整を指導するU2O RLの一般的なレシピを提案する。 9つの状態ベースおよび画素ベースの環境での実験を通して、U2O RLが従来のオフラインからオフラインまでのRLアプローチにマッチしたり、性能を向上すると同時に、多くのダウンストリームタスクに対して、トレーニング済みのモデル1つを再利用できることを実証的に実証した。

関連論文リスト

Unsupervised Data Generation for Offline Reinforcement Learning: A Perspective from Model [57.20064815347607]
オフライン強化学習(RL)は、最近RL研究者から関心が高まりつつある。オフラインRLの性能は、オンラインRLのフィードバックによって修正できる配布外問題に悩まされる。本稿では、まず、バッチデータとオフラインRLアルゴリズムの性能を理論的に橋渡しする。タスクに依存しない環境では、教師なしのRLによって訓練された一連のポリシーは、パフォーマンスギャップにおける最悪の後悔を最小限に抑えることができることを示す。
論文参考訳（メタデータ） (2025-06-24T14:08:36Z)
MOORL: A Framework for Integrating Offline-Online Reinforcement Learning [6.7265073544042995]
オフラインおよびオンライン学習を統合するハイブリッドフレームワークであるMOORL(Meta Offline-Online Reinforcement Learning)を提案する。提案手法は,オフラインデータとオンラインデータの相補的強みを効果的に組み合わせることで,探索の促進を図っている。計算オーバーヘッドが最小限であるMOORLは、実世界のシナリオにおける実用的な応用の可能性を強調し、高い性能を達成する。
論文参考訳（メタデータ） (2025-06-11T10:12:50Z)
SOReL and TOReL: Two Methods for Fully Offline Reinforcement Learning [31.408045330580087]
本稿では,安全なオフライン強化学習のためのアルゴリズムSOReLを紹介する。オフライン強化学習アルゴリズムTOReLについても紹介する。我々の経験的評価は, ベイズ条件下での後悔を正確に推定するSOReLの能力を裏付けるものである。
論文参考訳（メタデータ） (2025-05-28T15:07:24Z)
Active Advantage-Aligned Online Reinforcement Learning with Offline Data [56.98480620108727]
A3 RLは、ポリシー改善を最適化するために、オンラインとオフラインの組み合わせからデータを積極的に選択する新しい方法である。アクティブサンプリング戦略の有効性を検証する理論的保証を提供する。
論文参考訳（メタデータ） (2025-02-11T20:31:59Z)
Efficient Online Reinforcement Learning Fine-Tuning Need Not Retain Offline Data [64.74333980417235]
オフラインRLを微調整するために適切に設計されたオンラインRLアプローチを使用する限り、オフラインデータの保持は不要であることを示す。 Warm-start RL(WSRL)はオフラインデータを保持することなく微調整が可能であり,既存のアルゴリズムよりも高速に学習でき,高い性能が得られることを示す。
論文参考訳（メタデータ） (2024-12-10T18:57:12Z)
Marvel: Accelerating Safe Online Reinforcement Learning with Finetuned Offline Policy [12.589890916332196]
オフラインからオフライン(O2O)のRLを利用することで、より高速で安全なオンラインポリシ学習が可能になる。我々は,O2OセーフなRLのための新しいフレームワークであるtextbfMarvelを紹介した。我々の研究は、より効率的で実用的なRLソリューションに向けて分野を前進させる大きな可能性を秘めている。
論文参考訳（メタデータ） (2024-12-05T18:51:18Z)
Is Value Learning Really the Main Bottleneck in Offline RL? [70.54708989409409]
ポリシー抽出アルゴリズムの選択はオフラインRLの性能とスケーラビリティに大きく影響することを示す。本稿では,2つの簡易なテスト時ポリシー改善手法を提案し,これらの手法が性能向上につながることを示す。
論文参考訳（メタデータ） (2024-06-13T17:07:49Z)
Bridging Distributionally Robust Learning and Offline RL: An Approach to Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。オフラインRLの主な課題の1つは、分散シフトである。分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-10-27T19:19:30Z)
ENOTO: Improving Offline-to-Online Reinforcement Learning with Q-Ensembles [52.34951901588738]
我々はENsemble-based Offline-To-Online (ENOTO) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。実験により,ENOTOは既存のオフラインRL手法のトレーニング安定性,学習効率,最終性能を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-06-12T05:10:10Z)
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文参考訳（メタデータ） (2023-05-24T15:45:35Z)
Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments [11.272582555795989]
本研究では, エージェントがオフラインデータをトラジェクトリ形式で活用して, 手続き的に生成した環境におけるサンプル効率を向上させることができるかを検討した。 1)オンラインRLトレーニングの前にポリシーを事前学習し、(2)オフラインデータからオンラインRLとILでポリシーを同時に訓練する。
論文参考訳（メタデータ） (2023-04-18T16:23:15Z)
Contextual Transformer for Offline Meta Reinforcement Learning [16.587320914107128]
シーケンスモデリングに基づくオフライン強化学習(オフラインRL)アルゴリズムにおいて、プロンプトがどのように改善できるかを示す。本稿では、条件付きポリシー生成を導くために、入力とコンテキストベクトル列をテキスト化するオフラインRLのプロンプトチューニングを提案する。フレームワークをメタRL設定に拡張し,CMT(Contextual Meta Transformer)を提案する。
論文参考訳（メタデータ） (2022-11-15T10:00:14Z)
When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning [7.786094194874359]
本稿では,この問題に対する肯定的な回答を提供するために,Dynamics-Aware Hybrid Offline-and-Online Reinforcement Learning (H2O)フレームワークを提案する。 H2Oは動的に認識されたポリシー評価スキームを導入し、大きなダイナミックスギャップを持つシミュレーション状態-作用対上でQ関数学習を適応的にペナルティ化する。我々は、他のドメイン間のオンラインおよびオフラインRLアルゴリズムに対してH2Oの優れた性能を示す。
論文参考訳（メタデータ） (2022-06-27T17:18:11Z)
Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文参考訳（メタデータ） (2021-11-29T06:29:49Z)
MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文参考訳（メタデータ） (2020-05-12T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。