論文の概要: Learning to Modulate pre-trained Models in RL
- arxiv url: http://arxiv.org/abs/2306.14884v1
- Date: Mon, 26 Jun 2023 17:53:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 12:07:19.655034
- Title: Learning to Modulate pre-trained Models in RL
- Title(参考訳): RLにおける事前学習モデルのモデル化
- Authors: Thomas Schmied, Markus Hofmarcher, Fabian Paischer, Razvan Pascanu,
Sepp Hochreiter
- Abstract要約: 訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
- 参考スコア(独自算出の注目度): 18.548781345033863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has been successful in various domains like
robotics, game playing, and simulation. While RL agents have shown impressive
capabilities in their specific tasks, they insufficiently adapt to new tasks.
In supervised learning, this adaptation problem is addressed by large-scale
pre-training followed by fine-tuning to new down-stream tasks. Recently,
pre-training on multiple tasks has been gaining traction in RL. However,
fine-tuning a pre-trained model often suffers from catastrophic forgetting,
that is, the performance on the pre-training tasks deteriorates when
fine-tuning on new tasks. To investigate the catastrophic forgetting
phenomenon, we first jointly pre-train a model on datasets from two benchmark
suites, namely Meta-World and DMControl. Then, we evaluate and compare a
variety of fine-tuning methods prevalent in natural language processing, both
in terms of performance on new tasks, and how well performance on pre-training
tasks is retained. Our study shows that with most fine-tuning approaches, the
performance on pre-training tasks deteriorates significantly. Therefore, we
propose a novel method, Learning-to-Modulate (L2M), that avoids the degradation
of learned skills by modulating the information flow of the frozen pre-trained
model via a learnable modulation pool. Our method achieves state-of-the-art
performance on the Continual-World benchmark, while retaining performance on
the pre-training tasks. Finally, to aid future research in this area, we
release a dataset encompassing 50 Meta-World and 16 DMControl tasks.
- Abstract(参考訳): 強化学習(RL)は、ロボット工学、ゲームプレイ、シミュレーションといった様々な分野で成功している。
RLエージェントは特定のタスクに印象的な能力を示してきたが、新しいタスクに十分に適応できなかった。
教師付き学習では、この適応問題は大規模な事前学習と、新しい下流タスクへの微調整によって解決される。
近年,複数のタスクの事前学習がRLで活発化している。
しかし、事前訓練されたモデルの微調整は、しばしば破滅的な忘れ込み、すなわち、新しいタスクを微調整すると、事前訓練されたタスクのパフォーマンスが劣化する。
そこで我々は,メタワールドとdmcontrolという2つのベンチマークスイートから,データセットのモデルを事前学習した。
次に,自然言語処理において広く普及する様々な微調整手法について,新しいタスクの性能と,事前学習タスクにおける性能の保持について評価・比較を行う。
本研究は,ほとんどの微調整手法では,事前学習タスクの性能が著しく低下することを示す。
そこで本研究では,学習可能な変調プールを介して凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
本手法は,事前学習タスクのパフォーマンスを維持しつつ,連続世界ベンチマークで最先端のパフォーマンスを実現する。
最後に、この分野における今後の研究を支援するため、50のMeta-Worldと16のDMControlタスクを含むデータセットをリリースする。
関連論文リスト
- Model-Based Transfer Learning for Contextual Reinforcement Learning [5.5597941107270215]
文脈RL問題の解法としてモデルベーストランスファー学習を導入する。
理論的には,本手法は訓練作業数のサブリニアな後悔を示す。
都市交通と標準連続制御ベンチマークを用いて,提案手法を実験的に検証した。
論文 参考訳(メタデータ) (2024-08-08T14:46:01Z) - Controlling Forgetting with Test-Time Data in Continual Learning [15.455400390299593]
継続学習研究は、新しい知識が得られたときの過去の情報の破滅的な忘れを克服する技術を提供する。
テストタイムデータには,従来の学習タスクのモデルメモリをリフレッシュするために,自己管理的な方法で活用できる優れた情報がある,と我々は主張する。
論文 参考訳(メタデータ) (2024-06-19T15:56:21Z) - Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Task Arithmetic with LoRA for Continual Learning [0.0]
低ランク適応とタスク算術を用いて視覚モデルを継続的に訓練する新しい手法を提案する。
クラス毎に10個のサンプルを小さなメモリで支援すると,本手法はフルセットファインタニングに近い性能が得られる。
論文 参考訳(メタデータ) (2023-11-04T15:12:24Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Preventing Catastrophic Forgetting in Continual Learning of New Natural
Language Tasks [17.879087904904935]
マルチタスク学習(MTL)は、自然言語処理において、1つのモデルで複数の関連するタスクを学習するための標準技術として広く受け入れられている。
通常、システムは時間とともに進化するので、既存のMTLモデルに新しいタスクを追加するには、通常、すべてのタスクをスクラッチから再トレーニングする必要があります。
本稿では、n+1タスクを解くための新しいタスクに、既に訓練済みのnタスクに関するモデルの知識を蒸留することにより、MTLモデルの能力を漸進的に拡張し、新しいタスクを時間とともに解決する問題にアプローチする。
論文 参考訳(メタデータ) (2023-02-22T00:18:25Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - An Empirical Investigation of the Role of Pre-training in Lifelong
Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。
本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文 参考訳(メタデータ) (2021-12-16T19:00:55Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less
Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。
実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。
我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文 参考訳(メタデータ) (2020-04-27T08:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。