論文の概要: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting
Mitigation Problem
- arxiv url: http://arxiv.org/abs/2402.02868v1
- Date: Mon, 5 Feb 2024 10:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:00:41.125769
- Title: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting
Mitigation Problem
- Title(参考訳): 微調整強化学習モデルは秘かに緩和問題である
- Authors: Maciej Wo{\l}czyk, Bart{\l}omiej Cupia{\l}, Mateusz Ostaszewski,
Micha{\l} Bortkiewicz, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz
Kuci\'nski, Piotr Mi{\l}o\'s
- Abstract要約: 本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
- 参考スコア(独自算出の注目度): 23.056946834832015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a widespread technique that allows practitioners to transfer
pre-trained capabilities, as recently showcased by the successful applications
of foundation models. However, fine-tuning reinforcement learning (RL) models
remains a challenge. This work conceptualizes one specific cause of poor
transfer, accentuated in the RL setting by the interplay between actions and
observations: forgetting of pre-trained capabilities. Namely, a model
deteriorates on the state subspace of the downstream task not visited in the
initial phase of fine-tuning, on which the model behaved well due to
pre-training. This way, we lose the anticipated transfer benefits. We identify
conditions when this problem occurs, showing that it is common and, in many
cases, catastrophic. Through a detailed empirical analysis of the challenging
NetHack and Montezuma's Revenge environments, we show that standard knowledge
retention techniques mitigate the problem and thus allow us to take full
advantage of the pre-trained capabilities. In particular, in NetHack, we
achieve a new state-of-the-art for neural models, improving the previous best
score from $5$K to over $10$K points in the Human Monk scenario.
- Abstract(参考訳): ファインチューニング(英: fine-tuning)は、基礎モデルの成功した応用によって最近紹介されたように、実践者が事前訓練された能力を移行できる幅広い技術である。
しかし、微調整強化学習(RL)モデルは依然として課題である。
この研究は、行動と観察の間の相互作用によってRL設定でアクセント化され、事前訓練された能力を忘れる、移動不良の原因の1つを概念化する。
すなわち、モデルは、微調整の初期フェーズに到達しない下流タスクの状態サブスペースで劣化し、事前トレーニングによってモデルがうまく振る舞う。
これにより、予想される転送利益が失われる。
この問題が発生した場合の条件を特定し、それが一般的であり、多くの場合破滅的であることを示す。
課題であるNetHackとMontzumaのRevenge環境の詳細な実証分析を通じて、標準的な知識保持技術が問題を緩和し、事前学習された能力を最大限に活用できることを示す。
特にNetHackでは、Human Monkシナリオの前のベストスコアを5ドルKから10ドルKポイントに改善した、ニューラルモデルのための新たな最先端技術を実現しています。
関連論文リスト
- On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained
Models in Few-Shot Learning [21.693779973263172]
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は,突発的特徴の一貫性を保ち,モデルの一般化可能性を高めることを目的としている。
一度微調整すると、モデルは既存のメソッドとシームレスに統合され、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-23T17:12:01Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Fine-tuning can cripple your foundation model; preserving features may
be the solution [95.43355875644302]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
本稿では,モデルが事前学習した知識を保存できる「textitLDIFS$」というファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in
Transfer Learning [3.514757448524572]
我々は,1つの事前訓練点から訓練されたアンサンブルを,事前訓練点からよりよく探索することで改善できることを示した。
本稿では,転送学習のためのスナップショットアンサンブル(SSE)をより効果的に改良するStarSSEを提案する。
論文 参考訳(メタデータ) (2023-03-06T18:56:39Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。