論文の概要: Learning to Interpret Weight Differences in Language Models
- arxiv url: http://arxiv.org/abs/2510.05092v1
- Date: Mon, 06 Oct 2025 17:57:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.045237
- Title: Learning to Interpret Weight Differences in Language Models
- Title(参考訳): 言語モデルにおける重みの差を解釈する学習
- Authors: Avichal Goel, Yoon Kim, Nir Shavit, Tony T. Wang,
- Abstract要約: Diff Interpretation Tuning (DIT) は、モデルにファインタニングによって引き起こされる修正を記述することを訓練する手法である。
提案手法は, 提案手法を用いて, 精度の高い自然言語記述を用いて, 微調整による修正を記述できることを示す。
- 参考スコア(独自算出の注目度): 31.73162795049268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning (pretrained) language models is a standard approach for updating their internal parametric knowledge and specializing them to new tasks and domains. However, the corresponding model weight changes ("weight diffs") are not generally interpretable. While inspecting the finetuning dataset can give a sense of how the model might have changed, these datasets are often not publicly available or are too large to work with directly. Towards the goal of comprehensively understanding weight diffs in natural language, we introduce Diff Interpretation Tuning (DIT), a method that trains models to describe their own finetuning-induced modifications. Our approach uses synthetic, labeled weight diffs to train a DIT adapter, which can be applied to a compatible finetuned model to make it describe how it has changed. We demonstrate in two proof-of-concept settings (reporting hidden behaviors and summarizing finetuned knowledge) that our method enables models to describe their finetuning-induced modifications using accurate natural language descriptions.
- Abstract(参考訳): 微調整(事前訓練)言語モデルは、内部のパラメトリック知識を更新し、それらを新しいタスクやドメインに特化するための標準的なアプローチである。
しかし、対応するモデルウェイト変化(ウェイト差分)は一般に解釈できない。
微調整データセットを検査すると、モデルがどのように変化したのかがわかるが、これらのデータセットは一般に公開されていない場合や、直接処理するには大きすぎる場合が多い。
自然言語におけるウェイト差分を包括的に理解することを目的としたDiff Interpretation Tuning(DIT)を導入する。
我々のアプローチでは、DITアダプタをトレーニングするために、合成されたラベル付きウェイトディフを使用しており、互換性のある微調整モデルに適用することで、どのように変化したかを記述することができる。
提案手法は,2つの概念実証設定(隠れ行動の報告と微調整知識の要約)において,モデルがそれらの微調整による修正を,正確な自然言語記述を用いて記述できることを実証する。
関連論文リスト
- Self-Adapting Language Models [47.52508465862889]
大規模言語モデル(LLM)は強力だが静的であり、新しいタスクや知識、例に対応して重みを適応するメカニズムが欠如している。
我々は,自己適応型LSM(Self-Adapting LLMs, SEAL)を導入する。
知識の定式化と数ショットの一般化の実験により、SEALは自己指向適応が可能な言語モデルに向けた有望なステップであることが示された。
論文 参考訳(メタデータ) (2025-06-12T17:48:13Z) - Tuning Language Models by Proxy [110.49482736590907]
直接チューニングと同じ目的を達成するために,ブラックボックスLM上で動作する軽量復号時間アルゴリズムであるプロキシチューニングを導入する。
提案手法は, 小型のLMをチューニングし, 小型のLMと未チューニングのLMの予測の差を適用して, より大型の未チューニングモデルの本来の予測をチューニング方向にシフトさせる。
論文 参考訳(メタデータ) (2024-01-16T18:49:55Z) - Perturbed examples reveal invariances shared by language models [8.04604449335578]
2つのNLPモデルを比較するための新しいフレームワークを提案する。
このフレームワークは、同じおよび異なるアーキテクチャファミリーのモデルに関する実験であり、モデルの変化が言語機能にどのように影響するかについての洞察を提供する。
論文 参考訳(メタデータ) (2023-11-07T17:48:35Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Influence Tuning: Demoting Spurious Correlations via Instance
Attribution and Instance-Driven Updates [26.527311287924995]
インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
制御された設定では、インフルエンスチューニングは、データの急激なパターンからモデルを分解するのに役立ちます。
論文 参考訳(メタデータ) (2021-10-07T06:59:46Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based
Masked Language-models [51.53936551681613]
我々は、事前訓練されたBERTモデルのバイアス項(またはバイアス項のサブセット)のみを微調整することは、モデル全体を微調整する(そして、時にはそれよりも優れている)ことを示す。
彼らは、ファインタニングは、新しいタスク固有の言語知識を学ぶのではなく、言語モデリングの訓練によって引き起こされる知識を明らかにすることであるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-18T16:09:21Z) - On the Interplay Between Fine-tuning and Sentence-level Probing for
Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。
探究タスクの微調整によって精度が大幅に変化することを発見した。
ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文 参考訳(メタデータ) (2020-10-06T10:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。