Fugu-MT 論文翻訳(概要): Understanding the Collapse of LLMs in Model Editing

論文の概要: Understanding the Collapse of LLMs in Model Editing

arxiv url: http://arxiv.org/abs/2406.11263v2
Date: Mon, 30 Sep 2024 06:37:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:41:22.933268
Title: Understanding the Collapse of LLMs in Model Editing
Title（参考訳）: モデル編集におけるLCMの崩壊の理解
Authors: Wanli Yang, Fei Sun, Jiajun Tan, Xinyu Ma, Du Su, Dawei Yin, Huawei Shen,
Abstract要約: このような崩壊の根本原因について研究する。本稿では,編集フェーズ中にプレフィックスキーを均一に使用し,テストフェーズ中にプレフィックスを追加するという,シンプルで効果的なアプローチを提案する。
参考スコア（独自算出の注目度）: 37.429695927372755
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite significant progress in model editing methods, their application in real-world scenarios remains challenging as they often cause large language models (LLMs) to collapse. Among them, ROME is particularly concerning, as it could disrupt LLMs with only a single edit. In this paper, we study the root causes of such collapse. Through extensive analysis, we identify two primary factors that contribute to the collapse: i) inconsistent handling of prefixed and unprefixed keys in the parameter update equation may result in very small denominators, causing excessively large parameter updates; ii) the subject of collapse cases is usually the first token, whose unprefixed key distribution significantly differs from the prefixed key distribution in autoregressive transformers, causing the aforementioned issue to materialize. To validate our findings, we propose a simple yet effective approach: uniformly using prefixed keys during editing phase and adding prefixes during testing phase to ensure the consistency between training and testing. The experimental results show that the proposed solution can prevent model collapse while maintaining the effectiveness of the edits.
Abstract（参考訳）: モデル編集手法の大幅な進歩にもかかわらず、大規模な言語モデル(LLM)が崩壊することも多いため、実際のシナリオでの応用は依然として困難である。特にROMEは、単一の編集だけでLLMを破壊できる可能性があるため、特に関係している。本稿では,このような崩壊の根本原因について考察する。広範囲な分析を通して、崩壊に寄与する2つの主要な要因を同定する。一パラメータ更新式におけるプレフィックス及び未固定キーの不整合処理は、非常に小さな分母となり、過度に大きなパラメータ更新を引き起こすことがある。二崩壊事件の主題は、通常、第一のトークンであって、未固定鍵分布が自己回帰変圧器における前置鍵分布と大きく異なり、当該課題を具現化させるものであること。そこで本研究では,編集フェーズ中にプレフィックスキーを均一に使用し,テストフェーズ中にプレフィックスを追加することで,トレーニングとテストの整合性を確保するという,シンプルで効果的なアプローチを提案する。実験結果から,提案手法は編集の有効性を維持しつつ,モデル崩壊を防止できることが示唆された。

関連論文リスト

MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [82.34547399693966]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。残メモリを介して知識を注入する新しいスケーラブルなフレームワークであるMEMOIRを提案する。 MeMOIRは各編集をメモリパラメータの別のサブセットに限定し、編集間の干渉を最小限にする。
論文参考訳（メタデータ） (2025-06-09T16:16:42Z)
Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。大規模な実験ではPPADの大幅な改善が示されている。
論文参考訳（メタデータ） (2025-05-26T14:42:35Z)
REACT: Representation Extraction And Controllable Tuning to Overcome Overfitting in LLM Knowledge Editing [42.89229070245538]
本稿では,正確かつ制御可能な知識編集のためのフレームワークであるREACTを紹介する。最初の段階では、調整された刺激を用いて、潜在的な事実表現を抽出する。第2段階では,大小スカラーのベクトルを用いて,制御可能な摂動を隠蔽状態に適用する。
論文参考訳（メタデータ） (2025-05-25T01:57:06Z)
Learning Where to Edit Vision Transformers [27.038720045544867]
コンピュータビジョンにおける視覚変換器(ViT)の編集のための位置情報編集手法を提案する。我々はまず、CutMix拡張データ上でハイパーネットワークをメタラーニングすることで、位置から編集までの課題に対処する。提案手法を検証するため, サブポピュレーションシフトを導入した編集ベンチマークを構築した。
論文参考訳（メタデータ） (2024-11-04T10:17:40Z)
Keys to Robust Edits: from Theoretical Insights to Practical Advances [20.10464264597003]
大規模言語モデル(LLM)は知識の記憶と検索に革命をもたらしたが、矛盾や時代遅れな情報に対する課題に直面している。本研究は、位置・エディット法における故障の原因を調査し、それらのキー・バリュー・モデリングに関する理論的知見を提供する。経験的分析により、現在のメソッドで使われるキーは堅牢性と特異性要件を満たすことができないことが明らかになった。
論文参考訳（メタデータ） (2024-10-12T02:54:12Z)
Deep Autoregressive Models as Causal Inference Engines [38.26602521505842]
本稿では、複雑な共同ファウンダーやシーケンシャルアクションを扱える自己回帰的因果推論フレームワークを提案する。提案手法は,基礎となる因果図からトークンの列へとデータを変換するemシーケンシフィケーションを用いてこれを実現している。我々は,CIに適応したARモデルは,迷路をナビゲートしたり,チェスのエンドゲームを行ったり,あるキーワードが紙の受容率に与える影響を評価するなど,様々な複雑な応用において効率的かつ効果的であることが実証された。
論文参考訳（メタデータ） (2024-09-27T09:37:09Z)
ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文参考訳（メタデータ） (2024-08-19T02:27:00Z)
Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem [18.020492646988746]
本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。我々の入力が分布外であるにもかかわらず、期待される精度への影響は小さく、予測は、一様に選択された応答のシャッフルの順序を超える。
論文参考訳（メタデータ） (2024-06-04T16:09:13Z)
Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models [13.532180752491954]
利用可能な最大規模でトレーニングされた最先端モデルの機能と推論能力の劇的な破壊を実演する。モデルは、問題の解決に影響を与えない、微妙な問題バリエーションでさえも強い変動を示すため、その分解は劇的である。これらの初期観測は、現在世代の大言語モデルが主張する能力の再評価を急激に促すものである。
論文参考訳（メタデータ） (2024-06-04T07:43:33Z)
Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。この問題に対処するための単純な分散結合フレームワークを導入する。我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文参考訳（メタデータ） (2024-05-22T08:18:19Z)
The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文参考訳（メタデータ） (2024-02-15T01:50:38Z)
Hard Nominal Example-aware Template Mutual Matching for Industrial Anomaly Detection [74.9262846410559]
textbfHard Nominal textbfExample-aware textbfTemplate textbfMutual textbfMatching (HETMM) textitHETMMは、厳密なプロトタイプベースの決定境界を構築することを目的としており、ハードノミナルな例と異常を正確に区別することができる。
論文参考訳（メタデータ） (2023-03-28T17:54:56Z)
Mutual Exclusivity Training and Primitive Augmentation to Induce Compositionality [84.94877848357896]
最近のデータセットは、標準的なシーケンス・ツー・シーケンスモデルにおける体系的な一般化能力の欠如を露呈している。本稿では,セq2seqモデルの振る舞いを分析し,相互排他バイアスの欠如と全例を記憶する傾向の2つの要因を同定する。広範に使用されている2つの構成性データセット上で、標準的なシーケンス・ツー・シーケンスモデルを用いて、経験的改善を示す。
論文参考訳（メタデータ） (2022-11-28T17:36:41Z)
Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。 SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。 SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文参考訳（メタデータ） (2022-06-13T23:40:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。