論文の概要: TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs
- arxiv url: http://arxiv.org/abs/2506.23423v1
- Date: Sun, 29 Jun 2025 23:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.867875
- Title: TuCo: Measuring the Contribution of Fine-Tuning to Individual Responses of LLMs
- Title(参考訳): TuCo: LLMの個々の応答に対する微調整の寄与の測定
- Authors: Felipe Nuti, Tim Franzmeyer, João Henriques,
- Abstract要約: そこで本研究では,個々の応答に対する微調整がもたらす貢献度を計測する手法を提案する。
提案手法はモデル中間の隠れ状態を追跡し,微調整の効果についてより詳細な知見を提供する。
- 参考スコア(独自算出の注目度): 4.3467927523193035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Past work has studied the effects of fine-tuning on large language models' (LLMs) overall performance on certain tasks. However, a quantitative and systematic method for analyzing its effect on individual outputs is still lacking. Here, we propose a new method for measuring the contribution that fine-tuning makes to individual LLM responses, assuming access to the original pre-trained model. Our method tracks the model's intermediate hidden states, providing a more fine-grained insight into the effects of fine-tuning than a simple comparison of final outputs from pre-trained and fine-tuned models. We introduce and theoretically analyze an exact decomposition of any fine-tuned LLM into a pre-training component and a fine-tuning component. Empirically, we find that model behavior and performance can be steered by up- or down-scaling the fine-tuning component during the forward pass. Motivated by this finding and our theoretical analysis, we define the Tuning Contribution (TuCo) as the ratio of the magnitudes of the fine-tuning component to the pre-training component. We observe that three prominent adversarial attacks on LLMs circumvent safety measures in a way that reduces TuCo, and that TuCo is consistently lower on prompts where these attacks succeed compared to those where they do not. This suggests that attenuating the effect of fine-tuning on model outputs plays a role in the success of such attacks. In summary, TuCo enables the quantitative study of how fine-tuning influences model behavior and safety, and vice versa.
- Abstract(参考訳): 過去の研究は、大規模な言語モデル(LLM)に対する微調整の効果について研究してきた。
しかし、個々の出力に対する効果を定量的かつ体系的に分析する手法は、いまだに欠落している。
本稿では,従来の事前学習モデルへのアクセスを前提として,個々のLLM応答に微調整が与える貢献度を計測する手法を提案する。
提案手法は,事前学習されたモデルと微調整されたモデルとの最終的な出力の単純な比較よりも,微調整の効果に関するより詳細な知見を提供する。
我々は,任意の微調整LDMの精密分解を事前学習コンポーネントと微調整コンポーネントに導入し,理論的に解析する。
経験的に、モデル動作と性能は、前方通過中に微調整コンポーネントを上向きまたは下向きにスケーリングすることで評価できる。
この発見と理論的解析により、我々はチューニング寄与度(TuCo)を、トレーニング前成分に対する微調整成分の大きさの比率として定義する。
LLMに対する3つの顕著な敵対的攻撃は、TuCoを減少させる方法で安全対策を回避し、TuCoは、これらの攻撃が成功した場合において、そうでない場合と比較して一貫して低い。
このことは、モデル出力に対する微調整の効果を弱めることが、そのような攻撃の成功に重要な役割を果たしていることを示唆している。
要約すると、TuCoは微調整がモデル行動と安全性にどのように影響するかを定量的に研究することができる。
関連論文リスト
- Can Pre-training Indicators Reliably Predict Fine-tuning Outcomes of LLMs? [32.04523360747506]
本研究では,501BパラメータLLM変種を用いて,系統的な事前学習構成を持つデータセットを構築した。
本稿では,事前学習から得られた新しい教師なしおよび教師なしのプロキシメトリクスを導入し,相対的な性能予測誤差率を50%以上削減する。
論文 参考訳(メタデータ) (2025-04-16T21:19:09Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation [58.7395356511539]
有害な微調整攻撃は、微調整サービスに重大なセキュリティリスクをもたらす。
主流防衛は、後の有害な微調整攻撃がより効果的でないように、モデルを予防接種することを目的としている。
微調整後のモデルに適用可能な適応的摂動を最適化するパナセアを提案する。
論文 参考訳(メタデータ) (2025-01-30T02:47:09Z) - Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Impact of Noisy Supervision in Foundation Model Learning [91.56591923244943]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。