論文の概要: Mechanistically analyzing the effects of fine-tuning on procedurally
defined tasks
- arxiv url: http://arxiv.org/abs/2311.12786v1
- Date: Tue, 21 Nov 2023 18:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 23:27:05.484030
- Title: Mechanistically analyzing the effects of fine-tuning on procedurally
defined tasks
- Title(参考訳): 手続き的タスクにおける微調整の効果の機械的解析
- Authors: Samyak Jain, Robert Kirk, Ekdeep Singh Lubana, Robert P. Dick,
Hidenori Tanaka, Edward Grefenstette, Tim Rockt\"aschel, David Scott Krueger
- Abstract要約: プレトレーニング中にモデルが学習する基礎的能力に微調整がどう影響するかを考察する。
微調整が基礎となるモデル能力を変えることは滅多にない。
また、微調整により、意図せずにモデルの安全ラッパーを除去できることも示している。
- 参考スコア(独自算出の注目度): 26.989649264801347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning large pre-trained models has become the de facto strategy for
developing both task-specific and general-purpose machine learning systems,
including developing models that are safe to deploy. Despite its clear
importance, there has been minimal work that explains how fine-tuning alters
the underlying capabilities learned by a model during pretraining: does
fine-tuning yield entirely novel capabilities or does it just modulate existing
ones? We address this question empirically in synthetic, controlled settings
where we can use mechanistic interpretability tools (e.g., network pruning and
probing) to understand how the model's underlying capabilities are changing. We
perform an extensive analysis of the effects of fine-tuning in these settings,
and show that: (i) fine-tuning rarely alters the underlying model capabilities;
(ii) a minimal transformation, which we call a 'wrapper', is typically learned
on top of the underlying model capabilities, creating the illusion that they
have been modified; and (iii) further fine-tuning on a task where such hidden
capabilities are relevant leads to sample-efficient 'revival' of the
capability, i.e., the model begins reusing these capability after only a few
gradient steps. This indicates that practitioners can unintentionally remove a
model's safety wrapper merely by fine-tuning it on a, e.g., superficially
unrelated, downstream task. We additionally perform analysis on language models
trained on the TinyStories dataset to support our claims in a more realistic
setup.
- Abstract(参考訳): 微調整された大規模な事前学習モデルは、安全なデプロイモデルを含むタスク固有と汎用の両方の機械学習システムの開発において、事実上の戦略となっている。
その明確な重要性にもかかわらず、微調整が事前トレーニング中にモデルによって学習された基礎能力をどのように変えるかを説明する最小限の作業がある。
そこでは、機械的な解釈ツール(例えば、ネットワークの刈り取りや探索)を使って、モデルの基盤となる能力がどのように変化しているかを理解する。
これらの設定における微調整の効果を広範囲に分析し、以下を示す。
(i)微調整が基礎となるモデル能力を変えることはめったにない。
(ii)「ラッパー」と呼ぶ最小限の変換は、典型的には基礎となるモデル能力に基づいて学習され、修正されたという錯覚を生み出します。
(iii)そのような隠れた能力が関連するタスクのさらなる微調整は、その能力のサンプル効率の良い「復活」、すなわち、ほんの数回の勾配ステップでこれらの能力を再使用し始める。
これは、実践者が故意にモデルの安全ラッパーを単に微調整することで、例えば、表面的に無関係な下流タスクを除去できることを示している。
さらに、TinyStoriesデータセットでトレーニングされた言語モデルの解析を行い、より現実的な設定でクレームをサポートする。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Task-Specific Skill Localization in Fine-tuned Language Models [36.53572616441048]
本稿では,この問題に対するスキルローカライゼーションという用語を紹介する。
単純な最適化は、非常に小さなパラメータのサブセットを特定するために使われる。
この小さなサブセットの微調整された値を事前訓練されたモデルに移植することで、微調整されたモデルとほぼ同等のパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-02-13T18:55:52Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Sufficiently Accurate Model Learning for Planning [119.80502738709937]
本稿では,制約付きSufficiently Accurateモデル学習手法を提案する。
これはそのような問題の例を示し、いくつかの近似解がいかに近いかという定理を提示する。
近似解の質は、関数のパラメータ化、損失と制約関数の滑らかさ、モデル学習におけるサンプルの数に依存する。
論文 参考訳(メタデータ) (2021-02-11T16:27:31Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。