論文の概要: How Robust is Model Editing after Fine-Tuning? An Empirical Study on Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.18428v1
- Date: Mon, 23 Jun 2025 09:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.916466
- Title: How Robust is Model Editing after Fine-Tuning? An Empirical Study on Text-to-Image Diffusion Models
- Title(参考訳): 微調整後のモデル編集のロバスト性について : テキスト・画像拡散モデルに関する実証的研究
- Authors: Feng He, Zhenyang Liu, Marco Valentino, Zhixue Zhao,
- Abstract要約: T2I拡散モデルにおけるモデル編集と微調整の相互作用について検討する。
編集が微調整によって継続できないのは、微調整が具体的あるいは無関係である場合であってもである。
これらの発見は、デプロイされたAIシステムの信頼性の高い長期的な制御とアライメントを保証するための、より堅牢な技術の必要性を強調している。
- 参考スコア(独自算出の注目度): 7.342540592387184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing offers a low-cost technique to inject or correct a particular behavior in a pre-trained model without extensive retraining, supporting applications such as factual correction and bias mitigation. Despite this common practice, it remains unknown whether edits persist after fine-tuning or whether they are inadvertently reversed. This question has fundamental practical implications. For example, if fine-tuning removes prior edits, it could serve as a defence mechanism against hidden malicious edits. Vice versa, the unintended removal of edits related to bias mitigation could pose serious safety concerns. We systematically investigate the interaction between model editing and fine-tuning in the context of T2I diffusion models, which are known to exhibit biases and generate inappropriate content. Our study spans two T2I model families (Stable Diffusion and FLUX), two sota editing techniques, and three fine-tuning methods (DreamBooth, LoRA, and DoRA). Through an extensive empirical analysis across diverse editing tasks and evaluation metrics, our findings reveal a trend: edits generally fail to persist through fine-tuning, even when fine-tuning is tangential or unrelated to the edits. Notably, we observe that DoRA exhibits the strongest edit reversal effect. At the same time, among editing methods, UCE demonstrates greater robustness, retaining significantly higher efficacy post-fine-tuning compared to ReFACT. These findings highlight a crucial limitation in current editing methodologies, emphasizing the need for more robust techniques to ensure reliable long-term control and alignment of deployed AI systems. These findings have dual implications for AI safety: they suggest that fine-tuning could serve as a remediation mechanism for malicious edits while simultaneously highlighting the need for re-editing after fine-tuning to maintain beneficial safety and alignment properties.
- Abstract(参考訳): モデル編集は、広範囲のトレーニングをすることなく、訓練済みのモデルに特定の振る舞いを注入または修正するための低コストの技術を提供し、事実修正やバイアス軽減のような応用をサポートする。
この慣習にもかかわらず、微調整後に編集が継続されるか、故意に逆転しているかは定かではない。
この問題は根本的な実践的意味を持っている。
例えば、微調整が以前の編集を削除した場合、隠された悪意のある編集に対する防御メカニズムとして機能する可能性がある。
逆に、バイアス軽減に関する意図しない編集の削除は、深刻な安全上の懸念を引き起こす可能性がある。
本稿では,T2I拡散モデルの文脈におけるモデル編集と微調整の相互作用を系統的に検討する。
本研究は2つのT2Iモデルファミリー(Stable Diffusion, FLUX)と2つのソタ編集技術(DreamBooth, LoRA, DoRA)と3つの微調整方法(DreamBooth, LoRA, DoRA)にまたがる。
さまざまな編集タスクや評価指標にまたがる広範な経験的分析を通じて、我々の発見はトレンドを明らかにしている: 微調整によって編集が持続しないのは、微調整が具体的あるいは無関係である場合であっても、一般的には微調整によって失敗する。
特に,DORAの編集反転効果が最も高いことが観察された。
同時に、編集方法の中で、UCEは、ReFACTと比較して、より堅牢性を示し、微調整後の効果を著しく高く保っている。
これらの発見は、現在の編集手法における重要な制限を強調し、デプロイされたAIシステムの信頼性の高い長期的な制御とアライメントを保証するための、より堅牢な技術の必要性を強調している。
これらの発見はAIの安全性に2つの意味がある:彼らは、微調整が悪意のある編集の修復メカニズムとして機能すると同時に、良好な安全性とアライメント特性を維持するために微調整後の再編集の必要性を強調していることを示唆している。
関連論文リスト
- Tracing and Reversing Rank-One Model Edits [5.260519479124422]
本研究は,Ran-One Model Editing (ROME) 手法に着目し,知識編集のトレーサビリティと可逆性について考察する。
ROMEは, 編集重量行列に特徴的な分布パターンを導入し, 編集重量の探索に有効な信号として機能することを示す。
本稿では,編集プロンプトにアクセスすることなく,修正重みから直接編集対象エンティティを推定し,95%以上の精度を実現する方法を提案する。
論文 参考訳(メタデータ) (2025-05-27T07:27:01Z) - Potential and Challenges of Model Editing for Social Debiasing [20.186721346693577]
巨大なコーパスで訓練された大言語モデル(LLM)は、避けられないステレオタイプバイアスに悩まされる。
これらのバイアスを微調整で緩和することは、費用もデータもかかる。
ポストホックな方法でLLMを変更することに焦点を当てたモデル編集手法は、デバイアスに対処する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-21T01:35:26Z) - Model Editing by Standard Fine-Tuning [9.344592764040964]
標準的な微調整だけで2つの小さな修正を加えて、競合するモデル編集性能が得られることを示す。
まず、全確率ではなく条件付き確率を最適化する。
第二に、ランダムに言い換えられた編集プロンプトの訓練が一般化を促進するのに加え、ランダムまたは類似の未編集事実を訓練して局所性を奨励する。
論文 参考訳(メタデータ) (2024-02-16T21:10:33Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Edit at your own risk: evaluating the robustness of edited models to
distribution shifts [0.0]
モデル編集がモデルの一般的なロバスト性や、編集対象の特定の動作のロバスト性にどのように影響するかを検討する。
編集は一般的な堅牢性を低下させる傾向があるが、劣化の程度は編集アルゴリズムと選択した層に依存している。
これらの観測によって動機付けられた新しいモデル編集アルゴリズムである1-層 (1-LI) を導入し、重み空間を用いて編集タスクの精度と一般的なロバスト性の間のトレードオフをナビゲートする。
論文 参考訳(メタデータ) (2023-02-28T19:41:37Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。