論文の概要: Can Wikipedia Help Offline Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2201.12122v1
- Date: Fri, 28 Jan 2022 13:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 13:58:00.929670
- Title: Can Wikipedia Help Offline Reinforcement Learning?
- Title(参考訳): wikipediaはオフラインの強化学習に役立つか?
- Authors: Machel Reid, Yutaro Yamada, Shixiang Shane Gu
- Abstract要約: 大規模なオフザシェルフデータセットが不足しているため、微調整強化学習モデルは難しい。
最近の研究では、Transformerアーキテクチャの導入により、オフラインのRLに対処し、その結果を改善している。
オフラインRLタスクを微調整した場合、他の領域(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性について検討する。
- 参考スコア(独自算出の注目度): 12.12541097531412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning reinforcement learning (RL) models has been challenging because
of a lack of large scale off-the-shelf datasets as well as high variance in
transferability among different environments. Recent work has looked at
tackling offline RL from the perspective of sequence modeling with improved
results as result of the introduction of the Transformer architecture. However,
when the model is trained from scratch, it suffers from slow convergence
speeds. In this paper, we look to take advantage of this formulation of
reinforcement learning as sequence modeling and investigate the transferability
of pre-trained sequence models on other domains (vision, language) when
finetuned on offline RL tasks (control, games). To this end, we also propose
techniques to improve transfer between these domains. Results show consistent
performance gains in terms of both convergence speed and reward on a variety of
environments, accelerating training by 3-6x and achieving state-of-the-art
performance in a variety of tasks using Wikipedia-pretrained and GPT2 language
models. We hope that this work not only brings light to the potentials of
leveraging generic sequence modeling techniques and pre-trained models for RL,
but also inspires future work on sharing knowledge between generative modeling
tasks of completely different domains.
- Abstract(参考訳): 大規模オフザシェルフデータセットの欠如と、異なる環境間の転送可能性のばらつきのため、微調整強化学習(RL)モデルは困難である。
最近の研究は、Transformerアーキテクチャの導入により、シーケンスモデリングの観点から、オフラインのRLに取り組むことに注目している。
しかし、モデルをスクラッチからトレーニングすると、収束速度が遅くなる。
本稿では、この強化学習をシーケンスモデリングとして活用し、オフラインRLタスク(制御、ゲーム)を微調整した場合に、他のドメイン(ビジョン、言語)における事前訓練されたシーケンスモデルの転送可能性を検討する。
この目的のために、これらのドメイン間の転送を改善する手法も提案する。
結果は,各種環境における収束速度と報酬の両面において一貫したパフォーマンス向上を示し,トレーニングを3~6倍に加速し,WikipediaとGPT2言語モデルを用いた各種タスクにおける最先端のパフォーマンスを達成する。
この作業が、汎用シーケンスモデリング技術とrlの事前学習モデルを活用する可能性に光を当てるだけでなく、まったく異なるドメインのジェネレーティブモデリングタスク間の知識共有に関する今後の作業を促すことを期待しています。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - On Transforming Reinforcement Learning by Transformer: The Development
Trajectory [97.79247023389445]
Transformerは元々自然言語処理用に開発されたもので、コンピュータビジョンでも大きな成功を収めている。
既存の開発をアーキテクチャ拡張と軌道最適化の2つのカテゴリに分類する。
ロボット操作,テキストベースのゲーム,ナビゲーション,自律運転におけるTRLの主な応用について検討する。
論文 参考訳(メタデータ) (2022-12-29T03:15:59Z) - Bootstrapped Transformer for Offline Reinforcement Learning [31.43012728924881]
オフライン強化学習(RL)は、以前に収集した静的な軌跡データから実際の環境と相互作用することなく、ポリシーを学習することを目的としている。
最近の研究は、オフラインRLを汎用シーケンス生成問題として見ることによって、新しい視点を提供する。
本稿では,ブートストラップの概念を取り入れたBootstrapped Transformerという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-17T05:57:47Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。