論文の概要: Understanding the Effects of Domain Finetuning on LLMs
- arxiv url: http://arxiv.org/abs/2510.09359v1
- Date: Fri, 10 Oct 2025 13:14:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.087395
- Title: Understanding the Effects of Domain Finetuning on LLMs
- Title(参考訳): ドメインファインタニングがLLMに及ぼす影響の理解
- Authors: Eshaan Tanwar, Deepak Nathani, William Yang Wang, Tanmoy Chakraborty,
- Abstract要約: 大規模医療言語モデルにおけるドメイン固有微調整に関する最初の体系的研究について述べる。
解析の結果,微調整は表現部分空間の小さな部分集合のみを修飾することがわかった。
サブ空間におけるこれらの変化を解釈するために、微調整によって引き起こされる方向パラメータシフトを明示的にキャプチャするチューニングベクトルを提案する。
- 参考スコア(独自算出の注目度): 60.874016669351874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) fine-tuned for specific domains exhibit strong performance; however, the underlying mechanisms by which this fine-tuning reshapes their parametric space are not well understood. Prior works primarily focus on auto-regressive or general-purpose instruct models, leaving domain-specialised LLMs under-explored. We present the first systematic study of domain-specific fine-tuning in large medical language models. Our analysis reveals that fine-tuning modifies only a small subset of the representational subspace, essentially preserving the pre-trained model's representation. To interpret these changes in subspaces, we propose tuning vectors, a novel framework inspired by task vectors, which explicitly capture the directional parameter shifts induced by fine-tuning. We demonstrate that these vectors are critical for enhancing both instruction-following and generation quality. Furthermore, combining tuning vectors across different domains yields improved generalisation. Upon closer inspection of directional alignment, we find these vectors primarily write new directional information into the MLP layers of the model, while amplifying existing directions in attention heads. Our findings offer new insights into LLM adaptation and provide a general, interpretable framework for analysing specialisation in large language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、特定のドメインに対して微調整され、高い性能を示すが、この微調整がパラメトリック空間を想起させるメカニズムはよく理解されていない。
先行研究は主に自己回帰的または汎用的なインストラクションモデルに重点を置いており、ドメイン特化LLMは未探索のままである。
大規模医療言語モデルにおけるドメイン固有微調整に関する最初の体系的研究について述べる。
解析により、微調整は表現部分空間の小さな部分集合のみを修飾し、本質的には事前訓練されたモデルの表現を保存することが判明した。
サブ空間におけるこれらの変化を解釈するために,タスクベクトルにインスパイアされた新しいフレームワークであるチューニングベクトルを提案する。
これらのベクトルは命令追従と生成品質の向上に重要であることを示す。
さらに、異なる領域にまたがるチューニングベクトルを組み合わせることで、一般化が向上する。
方向アライメントを綿密に検査すると、これらのベクトルは主にモデルのMLP層に新しい方向情報を書き込む一方で、既存の方向を注意ヘッドで増幅する。
本研究は,LLM適応に関する新たな知見を提供し,大規模言語モデルにおける特殊化を解析するための一般的な解釈可能なフレームワークを提供する。
関連論文リスト
- Understanding Post-Training Structural Changes in Large Language Models [3.054513120350576]
後学習は大規模言語モデル(LLM)の振る舞いを根本的に変える
本研究は,指導チューニングと長鎖蒸留(Long-CoT)の2つの広く採用されているポストトレーニング手法に焦点をあてる。
論文 参考訳(メタデータ) (2025-09-22T15:03:36Z) - Enhancing Semantic Segmentation with Continual Self-Supervised Pre-training [11.897717409259492]
自己教師付き学習(SSL)は、基礎モデルをトレーニングするための中心的なパラダイムとして登場した。
GLAREは,下流セグメンテーション性能の向上を目的とした,新規な自己教師型事前学習タスクである。
論文 参考訳(メタデータ) (2025-09-22T14:11:02Z) - Small Vectors, Big Effects: A Mechanistic Study of RL-Induced Reasoning via Steering Vectors [12.331740215947677]
ベースモデルの残留流路に挿入された軽量ステアリングベクトルについて検討し,強化学習目標を用いて訓練を行った。
i)最後の層ステアリングベクトルは、第1生成トークンに集中したトークン置換バイアスのように振舞い、"To"や"Step"のようなトークンを一貫して増加させる。
また, (i) ステアリングベクトルが他のモデルに遷移し, (ii) 独立に訓練された場合, (iii) 適応的なトークンワイドスケーリングの下で意味のあるプロンプトセグメントに集中して, 層間を結合することを示す。
論文 参考訳(メタデータ) (2025-09-08T12:26:31Z) - Detecting and Pruning Prominent but Detrimental Neurons in Large Language Models [68.57424628540907]
大規模言語モデル(LLM)は、しばしば特定のデータセットに特化した学習メカニズムを開発する。
本稿では,データセット固有のメカニズムに関連するニューロンの同定と解析により,一般化の促進を目的とした微調整手法を提案する。
本手法では,各ニューロンの高信頼度予測への影響を定量化するため,データセット固有の性能に不均等に寄与するニューロンを同定する。
論文 参考訳(メタデータ) (2025-07-12T08:10:10Z) - Weight Spectra Induced Efficient Model Adaptation [54.8615621415845]
微調整された大規模な基礎モデルは、計算コストを禁ずる。
微調整が最上位特異値を大きく増幅する一方で,残りはほとんど無傷であることを示す。
本稿では,トップ特異方向の学習可能な再スケーリングを利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T05:03:29Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Transformer Block Coupling and its Correlation with Generalization in LLMs [3.007031501305338]
トークン埋め込みの軌跡をトランスフォーマーブロックを通過して解析し、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
我々は,多言語モデルにおけるtextbftransformer ブロックの結合現象を明らかにし,トークンと深さをまたいだ頂点特異ベクトルの結合を特徴とする。
さらに,これらの特性が学習中にどのように出現するかを考察し,結合の進行,線形性の向上,トークン軌道の層ワイド指数的成長を観察する。
論文 参考訳(メタデータ) (2024-07-10T16:30:27Z) - Unveiling the Generalization Power of Fine-Tuned Large Language Models [81.70754292058258]
大規模言語モデル(LLM)に固有の内在的一般化能力に微調整が及ぼす影響について検討する。
本研究の主目的は、生成タスクと分類タスクを微調整したモデルが、異なる領域やタスクに一般化する際に異なる振る舞いを示すことである。
生成タスクの微調整中にコンテキスト内学習戦略を統合することで、モデルの一般化能力を高めることができる。
論文 参考訳(メタデータ) (2024-03-14T08:18:59Z) - Disentangled Representation Learning and Generation with Manifold
Optimization [10.69910379275607]
本研究は,変分方向の促進による絡み合いを明確に促進する表現学習フレームワークを提案する。
理論的な議論と様々な実験により、提案モデルは、生成品質と非絡み合い表現学習の両方の観点から、多くのVAE変種よりも改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-12T10:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。