論文の概要: Fine-tuning Done Right in Model Editing
- arxiv url: http://arxiv.org/abs/2509.22072v2
- Date: Mon, 29 Sep 2025 02:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.658334
- Title: Fine-tuning Done Right in Model Editing
- Title(参考訳): モデル編集におけるきめ細かい調整
- Authors: Wanli Yang, Fei Sun, Rui Tang, Hongyu Zang, Du Su, Qi Cao, Jingang Wang, Huawei Shen, Xueqi Cheng,
- Abstract要約: 大規模な言語モデルを適応するための基礎的な手法であるファインチューニングは、長い間モデル編集には有効ではないと考えられてきた。
ミニバッチ最適化により、標準的な幅優先パイプライン(エポックベース)に微調整を復元する。
我々は、復元された微調整フレームワーク上に構築された、シンプルで効果的なローカライズド編集手法であるLocFT-BFを導出する。
- 参考スコア(独自算出の注目度): 83.79661791576103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning, a foundational method for adapting large language models, has long been considered ineffective for model editing. Here, we challenge this belief, arguing that the reported failure arises not from the inherent limitation of fine-tuning itself, but from adapting it to the sequential nature of the editing task, a single-pass depth-first pipeline that optimizes each sample to convergence before moving on. While intuitive, this depth-first pipeline coupled with sample-wise updating over-optimizes each edit and induces interference across edits. Our controlled experiments reveal that simply restoring fine-tuning to the standard breadth-first (i.e., epoch-based) pipeline with mini-batch optimization substantially improves its effectiveness for model editing. Moreover, fine-tuning in editing also suffers from suboptimal tuning parameter locations inherited from prior methods. Through systematic analysis of tuning locations, we derive LocFT-BF, a simple and effective localized editing method built on the restored fine-tuning framework. Extensive experiments across diverse LLMs and datasets demonstrate that LocFT-BF outperforms state-of-the-art methods by large margins. Notably, to our knowledge, it is the first to sustain 100K edits and 72B-parameter models,10 x beyond prior practice, without sacrificing general capabilities. By clarifying a long-standing misconception and introducing a principled localized tuning strategy, we advance fine-tuning from an underestimated baseline to a leading method for model editing, establishing a solid foundation for future research.
- Abstract(参考訳): 大規模な言語モデルを適応するための基礎的な手法であるファインチューニングは、長い間モデル編集には有効ではないと考えられてきた。
ここでは、報告された障害は、微調整自体の固有の制限ではなく、編集タスクのシーケンシャルな性質に適応するため、各サンプルを移動前に収束させるために最適化するシングルパス深度優先パイプラインである、と論じて、この信念に異議を唱える。
直感的ではあるが、このディープファーストパイプラインとサンプルワイズアップデートは、各編集を過度に最適化し、編集間の干渉を誘発する。
制御された実験により、最小バッチ最適化による標準幅優先パイプライン(すなわちエポックベース)への微調整が、モデル編集の有効性を大幅に向上することが明らかとなった。
さらに、編集の微調整も、従来の方法から受け継がれた最適でないチューニングパラメータの位置に悩まされる。
チューニング位置の体系的解析を通じて、復元された微調整フレームワーク上に構築されたシンプルで効果的な局所的編集手法であるLocFT-BFを導出する。
多様なLLMとデータセットにわたる大規模な実験により、LocFT-BFは最先端の手法を大きなマージンで上回ることを示した。
特に、私たちの知る限り、100Kの編集と72Bのパラメータモデルを維持することは、一般的な能力を犠牲にすることなく、前例より10倍多い。
長年の誤解を明確にし,原則的局所的チューニング戦略を導入することにより,過小評価ベースラインからモデル編集の先導方法への微調整を進め,今後の研究の基盤を確立する。
関連論文リスト
- LyapLock: Bounded Knowledge Preservation in Sequential Large Language Model Editing [27.918524905286475]
現在の位置情報編集アプローチは、逐次編集中に徐々にパフォーマンスが低下している。
textbfLyapLockは、長期制約付きプログラミングを、効率的な解法のために、段階的に抽出可能なサブプロブレムに分解するために提案されている。
実験結果から,本フレームワークは汎用性を安定させ,SOTAベースラインよりも平均編集効率を11.89%向上させるとともに,1万回以上の編集能力に拡張可能であることがわかった。
論文 参考訳(メタデータ) (2025-05-21T16:16:33Z) - LookAhead Tuning: Safer Language Models via Partial Answer Previews [62.529794567687354]
ファインチューニングにより、大きな言語モデルは特定のドメインに適応できるが、しばしば以前に確立された安全アライメントを損なう。
LookAhead Tuningは、微調整時の安全性を維持する軽量で効果的なデータ駆動型アプローチである。
論文 参考訳(メタデータ) (2025-03-24T18:11:42Z) - Rethinking the Residual Distribution of Locate-then-Editing Methods in Model Editing [14.958557185068]
モデル編集は、大規模言語モデルの知識をターゲットとする更新を可能にする。
location-then-editメソッドはまず重要なレイヤを識別し、ターゲットの編集に基づいて最後のクリティカルレイヤで残余を計算する。
これらの手法のコアメカニズムである残留分布は、編集精度を損なう重みシフト誤差をもたらす。
そこで我々は,位置列編集手法を強化するBLUE戦略を提案する。
論文 参考訳(メタデータ) (2025-02-06T03:20:17Z) - Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。
我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。
提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-11-04T10:17:40Z) - An Empirical Study on JIT Defect Prediction Based on BERT-style Model [5.098350174933033]
本研究では,細粒化プロセスの設定がJIT欠陥予測のためのBERT型事前学習モデルに及ぼす影響について検討する。
以上の結果から,BERTモデルにおける第1エンコーダ層の役割が明らかとなった。
これらの知見を組み合わせて,LoRAに基づくコスト効率の高い微調整手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T09:41:55Z) - Model Editing by Standard Fine-Tuning [9.344592764040964]
標準的な微調整だけで2つの小さな修正を加えて、競合するモデル編集性能が得られることを示す。
まず、全確率ではなく条件付き確率を最適化する。
第二に、ランダムに言い換えられた編集プロンプトの訓練が一般化を促進するのに加え、ランダムまたは類似の未編集事実を訓練して局所性を奨励する。
論文 参考訳(メタデータ) (2024-02-16T21:10:33Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Domain-Aware Fine-Tuning: Enhancing Neural Network Adaptability [4.671615537573023]
Domain-Aware Fine-Tuning (DAFT)は、バッチ正規化変換と線形探索と微調整の統合を組み合わせた新しいアプローチである。
提案手法は特徴歪みを著しく軽減し,分布内および分布外の両方のデータセット上でのモデル性能の向上を実現する。
論文 参考訳(メタデータ) (2023-08-15T12:08:43Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。