Fugu-MT 論文翻訳(概要): Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

論文の概要: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem

arxiv url: http://arxiv.org/abs/2402.02868v1
Date: Mon, 5 Feb 2024 10:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 17:00:41.125769
Title: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem
Title（参考訳）: 微調整強化学習モデルは秘かに緩和問題である
Authors: Maciej Wo{\l}czyk, Bart{\l}omiej Cupia{\l}, Mateusz Ostaszewski, Micha{\l} Bortkiewicz, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s
Abstract要約: 本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
参考スコア（独自算出の注目度）: 23.056946834832015
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Fine-tuning is a widespread technique that allows practitioners to transfer pre-trained capabilities, as recently showcased by the successful applications of foundation models. However, fine-tuning reinforcement learning (RL) models remains a challenge. This work conceptualizes one specific cause of poor transfer, accentuated in the RL setting by the interplay between actions and observations: forgetting of pre-trained capabilities. Namely, a model deteriorates on the state subspace of the downstream task not visited in the initial phase of fine-tuning, on which the model behaved well due to pre-training. This way, we lose the anticipated transfer benefits. We identify conditions when this problem occurs, showing that it is common and, in many cases, catastrophic. Through a detailed empirical analysis of the challenging NetHack and Montezuma's Revenge environments, we show that standard knowledge retention techniques mitigate the problem and thus allow us to take full advantage of the pre-trained capabilities. In particular, in NetHack, we achieve a new state-of-the-art for neural models, improving the previous best score from $5$K to over $10$K points in the Human Monk scenario.
Abstract（参考訳）: ファインチューニング(英: fine-tuning)は、基礎モデルの成功した応用によって最近紹介されたように、実践者が事前訓練された能力を移行できる幅広い技術である。しかし、微調整強化学習(RL)モデルは依然として課題である。この研究は、行動と観察の間の相互作用によってRL設定でアクセント化され、事前訓練された能力を忘れる、移動不良の原因の1つを概念化する。すなわち、モデルは、微調整の初期フェーズに到達しない下流タスクの状態サブスペースで劣化し、事前トレーニングによってモデルがうまく振る舞う。これにより、予想される転送利益が失われる。この問題が発生した場合の条件を特定し、それが一般的であり、多くの場合破滅的であることを示す。課題であるNetHackとMontzumaのRevenge環境の詳細な実証分析を通じて、標準的な知識保持技術が問題を緩和し、事前学習された能力を最大限に活用できることを示す。特にNetHackでは、Human Monkシナリオの前のベストスコアを5ドルKから10ドルKポイントに改善した、ニューラルモデルのための新たな最先端技術を実現しています。

関連論文リスト

Understanding Degradation with Vision Language Model [56.09241449206817]
視覚的劣化を理解することは、コンピュータビジョンにおいて重要な問題であるが、難しい問題である。本稿では,教師付き微調整と強化学習を併用したマルチモーダル・チェーン・オブ・ソート・モデルであるDU-VLMを紹介する。また,110,000個のクリーン劣化ペアと接地された物理アノテーションからなる大規模データセットである textbfDU-110k も導入した。
論文参考訳（メタデータ） (2026-02-04T13:51:15Z)
Training Reasoning Models on Saturated Problems via Failure-Prefix Conditioning [0.3823356975862005]
本研究では,飽和問題から学習する簡易かつ効果的な手法であるフェールコンディショニングを提案する。障害発生条件付けにより,中級難易度問題における訓練条件に適合する性能向上が期待できる。以上の結果から, 故障条件付けは飽和問題に対するRLVRトレーニングの拡張に有効な経路であることが示唆された。
論文参考訳（メタデータ） (2026-01-28T18:29:21Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Chained Tuning Leads to Biased Forgetting [20.181135590652985]
下流タスクでトレーニングされたモデルは、反対の順序でトレーニングされたモデルよりもはるかに安全チューニングを忘れていることを示す。忘れることが特定のグループの安全情報に悪影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-12-21T03:51:58Z)
Why pre-training is beneficial for downstream classification tasks? [32.331679393303446]
本稿では,ゲーム理論の新たな視点から,事前学習が下流作業に与える影響を定量的かつ明示的に説明することを提案する。具体的には,事前学習モデルにより符号化された知識を抽出し,定量化する。我々は、下流タスクの推測のために、少数の事前訓練されたモデルの知識しか保存されていないことを発見した。
論文参考訳（メタデータ） (2024-10-11T02:13:16Z)
Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文参考訳（メタデータ） (2024-07-11T10:35:53Z)
An Empirical Analysis of Forgetting in Pre-trained Models with Incremental Low-Rank Updates [11.90029443742706]
本研究は,ローランド適応(LoRA)のランクが,事前学習の基礎課題の忘れ方,可塑性およびその後の課題の忘れ方に及ぼす影響について検討する。また、この方法で微調整された視覚トランスフォーマーは、残余のネットワークでは観測できないような、ある種の文脈的「忘れ」を示す。
論文参考訳（メタデータ） (2024-05-28T11:29:25Z)
On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文参考訳（メタデータ） (2024-03-11T16:23:42Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文参考訳（メタデータ） (2023-08-25T11:49:51Z)
Learning to Modulate pre-trained Models in RL [22.812215561012874]
訓練済みモデルの微調整は、しばしば破滅的な忘れ込みに悩まされる。本研究は、ほとんどの微調整アプローチにおいて、事前学習タスクのパフォーマンスが著しく低下していることを示す。凍結事前学習モデルの情報フローを変調することにより,学習スキルの劣化を回避する新しい手法L2Mを提案する。
論文参考訳（メタデータ） (2023-06-26T17:53:05Z)
Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文参考訳（メタデータ） (2023-06-21T05:26:28Z)
To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning [3.514757448524572]
我々は,1つの事前訓練点から訓練されたアンサンブルを,事前訓練点からよりよく探索することで改善できることを示した。本稿では,転送学習のためのスナップショットアンサンブル(SSE)をより効果的に改良するStarSSEを提案する。
論文参考訳（メタデータ） (2023-03-06T18:56:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。