論文の概要: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem
- arxiv url: http://arxiv.org/abs/2402.02868v3
- Date: Wed, 17 Jul 2024 09:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:48:58.197460
- Title: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem
- Title(参考訳): 微調整強化学習モデルは秘かに緩和問題である
- Authors: Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski, Michał Bortkiewicz, Michał Zając, Razvan Pascanu, Łukasz Kuciński, Piotr Miłoś,
- Abstract要約: 本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
- 参考スコア(独自算出の注目度): 12.185261182744377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is a widespread technique that allows practitioners to transfer pre-trained capabilities, as recently showcased by the successful applications of foundation models. However, fine-tuning reinforcement learning (RL) models remains a challenge. This work conceptualizes one specific cause of poor transfer, accentuated in the RL setting by the interplay between actions and observations: forgetting of pre-trained capabilities. Namely, a model deteriorates on the state subspace of the downstream task not visited in the initial phase of fine-tuning, on which the model behaved well due to pre-training. This way, we lose the anticipated transfer benefits. We identify conditions when this problem occurs, showing that it is common and, in many cases, catastrophic. Through a detailed empirical analysis of the challenging NetHack and Montezuma's Revenge environments, we show that standard knowledge retention techniques mitigate the problem and thus allow us to take full advantage of the pre-trained capabilities. In particular, in NetHack, we achieve a new state-of-the-art for neural models, improving the previous best score from $5$K to over $10$K points in the Human Monk scenario.
- Abstract(参考訳): ファインチューニング(英: Fine-tuning)は、ファウンデーションモデルの成功例で最近紹介されたように、実践者が事前訓練された能力の伝達を可能にする広範なテクニックである。
しかし、微調整強化学習(RL)モデルは依然として課題である。
この研究は、行動と観察の間の相互作用によってRL設定でアクセント化され、事前訓練された能力を忘れる、移動不良の1つの特定の原因を概念化する。
すなわち、モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を悪化させ、事前学習によりモデルがうまく振る舞う。
このようにして、期待される転送利益を失うのです。
この問題が発生した場合の条件を特定し、それが一般的であり、多くの場合破滅的であることを示す。
課題であるNetHackとMontzumaのRevenge環境の詳細な実証分析を通じて、標準的な知識保持技術が問題を緩和し、事前学習された能力を最大限に活用できることを示す。
特にNetHackでは、Human Monkシナリオの前のベストスコアを5ドルKから10ドルKポイントに改善した、ニューラルモデルのための新たな最先端技術を実現しています。
関連論文リスト
- Why pre-training is beneficial for downstream classification tasks? [32.331679393303446]
本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。
具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。
我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
論文 参考訳(メタデータ) (2024-10-11T02:13:16Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z) - An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。
また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文 参考訳(メタデータ) (2024-05-28T11:29:25Z) - On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。
本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。
この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文 参考訳(メタデータ) (2024-03-11T16:23:42Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。
本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。
凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文 参考訳(メタデータ) (2023-06-26T17:53:05Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in
Transfer Learning [3.514757448524572]
我々は,1つの事前訓練点から訓練されたアンサンブルを,事前訓練点からよりよく探索することで改善できることを示した。
本稿では,転送学習のためのスナップショットアンサンブル(SSE)をより効果的に改良するStarSSEを提案する。
論文 参考訳(メタデータ) (2023-03-06T18:56:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。