Fugu-MT 論文翻訳(概要): Model Editing by Pure Fine-Tuning

論文の概要: Model Editing by Pure Fine-Tuning

arxiv url: http://arxiv.org/abs/2402.11078v2
Date: Sun, 10 Mar 2024 13:53:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 14:11:17.535027
Title: Model Editing by Pure Fine-Tuning
Title（参考訳）: 純微調整によるモデル編集
Authors: Govind Gangadhar, Karl Stratos
Abstract要約: ファインチューニングは、より専門的な手法に比べてパフォーマンスが悪いため、モデル編集には効果がないとして除外される。モデル編集において,純微調整が有効な手法であることを示す。
参考スコア（独自算出の注目度）: 11.039398457603964
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fine-tuning is dismissed as not effective for model editing due to its poor performance compared to more specialized methods. However, fine-tuning is simple, agnostic to the architectural details of the model being edited, and able to leverage ongoing advances in standard training methods (e.g., PEFT), making it an appealing choice for a model editor. In this work, we show that pure fine-tuning can be a viable approach to model editing. We propose a slight modification of naive fine-tuning with two key ingredients. First, we optimize the conditional likelihood rather than the full likelihood. Second, we augment the data with random paraphrases and facts to encourage generalization and locality. Our experiments on ZsRE and CounterFact show that this simple modification allows fine-tuning to often match or outperform specialized editors in the edit score.
Abstract（参考訳）: 微調整は、より専門的な方法に比べて性能が悪いため、モデル編集に効果がないとして却下される。しかし、微調整は単純で、編集されるモデルのアーキテクチャの詳細に無関係であり、標準の訓練方法(例えばPEFT)で進行中の進歩を活用することができ、モデルエディターにとって魅力的な選択である。本稿では,純粋に微調整を行うことがモデル編集に有効な手法であることを示す。 2つの主成分を用いた微調整の微調整を提案する。まず、条件付き確率を完全な確率よりも最適化する。第2に,データの一般化と局所性を促進するために,ランダムなパラフレーズと事実によって拡張する。 ZsRE と CounterFact に関する実験により、この簡単な修正により、編集スコアの特別なエディタとマッチしたり、性能が良くなることが示された。

関連論文リスト

Fine-tuning Done Right in Model Editing [83.79661791576103]
大規模な言語モデルを適応するための基礎的な手法であるファインチューニングは、長い間モデル編集には有効ではないと考えられてきた。ミニバッチ最適化により、標準的な幅優先パイプライン(エポックベース)に微調整を復元する。我々は、復元された微調整フレームワーク上に構築された、シンプルで効果的なローカライズド編集手法であるLocFT-BFを導出する。
論文参考訳（メタデータ） (2025-09-26T08:53:13Z)
InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文参考訳（メタデータ） (2025-05-28T09:20:18Z)
BalancEdit: Dynamically Balancing the Generality-Locality Trade-off in Multi-modal Model Editing [18.40863022476747]
マルチモーダルモデル編集における一般化-局所性トレードオフの概念を導入する。バランスモデル編集の新しい手法であるBalancEditを提案する。この結果,堅牢な編集能力を維持しつつ,最小限のトレードオフを実証し,BalancEditの有効性を確認した。
論文参考訳（メタデータ） (2025-05-02T15:31:32Z)
The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文参考訳（メタデータ） (2025-02-16T15:57:55Z)
Better Call SAUL: Fluent and Consistent Language Model Editing with Generation Regularization [48.07144492109635]
大規模な言語モデルは定期的に更新する必要がある。モデル編集は、新しいデータとは無関係な知識にも影響する可能性があるため、難しい。文結合と拡張ランダムな事実を連成して生成規則化を行うモデル編集手法であるSAULを提案する。
論文参考訳（メタデータ） (2024-10-03T12:28:13Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
Model Editing at Scale leads to Gradual and Catastrophic Forgetting [2.569159339315845]
本稿では,ROMEとMEMITの2つの手法に焦点をあてて,現在のモデル編集手法を大規模に評価する。モデルが複数の事実と逐次的に編集されるにつれて、以前編集された事実と下流タスクの実行能力を常に忘れていることがわかった。
論文参考訳（メタデータ） (2024-01-15T03:57:15Z)
Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文参考訳（メタデータ） (2024-01-09T18:03:15Z)
Edit at your own risk: evaluating the robustness of edited models to distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文参考訳（メタデータ） (2023-02-28T19:41:37Z)
Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。 GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。 T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文参考訳（メタデータ） (2022-11-20T17:18:22Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)
Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。 MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。 MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文参考訳（メタデータ） (2021-10-21T17:41:56Z)
A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文参考訳（メタデータ） (2020-05-27T07:16:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。