論文の概要: Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking
- arxiv url: http://arxiv.org/abs/2402.14811v1
- Date: Thu, 22 Feb 2024 18:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 13:55:41.803574
- Title: Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking
- Title(参考訳): 既存メカニズムの微調整:エンティティ追跡を事例として
- Authors: Nikhil Prakash, Tamar Rott Shaham, Tal Haklay, Yonatan Belinkov, David
Bau
- Abstract要約: 本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
- 参考スコア(独自算出の注目度): 53.66999416757543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning on generalized tasks such as instruction following, code
generation, and mathematics has been shown to enhance language models'
performance on a range of tasks. Nevertheless, explanations of how such
fine-tuning influences the internal computations in these models remain
elusive. We study how fine-tuning affects the internal mechanisms implemented
in language models. As a case study, we explore the property of entity
tracking, a crucial facet of language comprehension, where models fine-tuned on
mathematics have substantial performance gains. We identify the mechanism that
enables entity tracking and show that (i) in both the original model and its
fine-tuned versions primarily the same circuit implements entity tracking. In
fact, the entity tracking circuit of the original model on the fine-tuned
versions performs better than the full original model. (ii) The circuits of all
the models implement roughly the same functionality: Entity tracking is
performed by tracking the position of the correct entity in both the original
model and its fine-tuned versions. (iii) Performance boost in the fine-tuned
models is primarily attributed to its improved ability to handle the augmented
positional information. To uncover these findings, we employ: Patch Patching,
DCM, which automatically detects model components responsible for specific
semantics, and CMAP, a new approach for patching activations across models to
reveal improved mechanisms. Our findings suggest that fine-tuning enhances,
rather than fundamentally alters, the mechanistic operation of the model.
- Abstract(参考訳): 命令追従、コード生成、数学といった一般化されたタスクの微調整は、様々なタスクにおける言語モデルの性能を高めることが示されている。
しかし、そのような微調整がこれらのモデルの内部計算にどのように影響するかは、いまだ解明されていない。
言語モデルに実装された内部機構に微調整が与える影響について検討する。
ケーススタディとして,言語理解の重要な面であるエンティティトラッキングの特性について検討し,数学を微調整したモデルの性能向上について検討した。
我々は、エンティティ追跡を可能にするメカニズムを特定し、それを示す
i) 元のモデルと細調整されたバージョンの両方において、主に同一回路がエンティティトラッキングを実装している。
実際、微調整されたバージョンのオリジナルモデルのエンティティトラッキング回路は、完全なオリジナルモデルよりもパフォーマンスが良い。
(ii) 全てのモデルの回路は、ほぼ同じ機能を実装している: エンティティのトラッキングは、元のモデルとその微調整されたバージョンの両方において正しいエンティティの位置を追跡することによって実行される。
(iii)微調整モデルの性能向上は,拡張位置情報の処理能力の向上が主因である。
これらの知見を明らかにするために、特定のセマンティクスに責任のあるモデルコンポーネントを自動的に検出するパッチパッチ(Patch Patching)と、改善されたメカニズムを明らかにするためにモデル間でアクティベーションをパッチする新しいアプローチであるCMAPを用いる。
本研究の結果から, 微調整はモデルの機械的操作を根本的に変化させるのではなく, 改善することが示唆された。
関連論文リスト
- Chain and Causal Attention for Efficient Entity Tracking [46.577761606415805]
そこで本研究では,標準的な注意機構の効率的かつ簡素な拡張について提案する。
隣接行列として注意を向けることにより、我々のモデルは単一の層で実体状態を追跡することができる。
私たちの貢献には、理論的洞察、注意機構の改善、実証的検証が含まれる。
論文 参考訳(メタデータ) (2024-10-07T23:54:10Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Beyond Self-learned Attention: Mitigating Attention Bias in
Transformer-based Models Using Attention Guidance [9.486558126032639]
SyntaGuidはトランスフォーマーベースのモデルを重要なソースコードトークンへ導くための新しいアプローチである。
SyntaGuidは、全体的なパフォーマンスを3.25%改善し、28.3%の誤予測を修正できることを示す。
論文 参考訳(メタデータ) (2024-02-26T18:03:50Z) - Has Your Pretrained Model Improved? A Multi-head Posterior Based
Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。
本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。
提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文 参考訳(メタデータ) (2024-01-02T17:08:26Z) - Mechanistically analyzing the effects of fine-tuning on procedurally defined tasks [37.278707106871295]
プレトレーニング中にモデルが学習する基礎的能力に微調整がどう影響するかを考察する。
微調整が基礎となるモデル能力を変えることは滅多にない。
また、微調整により、意図せずにモデルの安全ラッパーを除去できることも示している。
論文 参考訳(メタデータ) (2023-11-21T18:51:04Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Scaling Local Self-Attention For Parameter Efficient Visual Backbones [29.396052798583234]
自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
論文 参考訳(メタデータ) (2021-03-23T17:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。