論文の概要: DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20588v1
- Date: Fri, 31 May 2024 02:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:46:08.097747
- Title: DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
- Title(参考訳): DAFNet:大規模言語モデルにおける逐次モデル編集のための動的補助融合
- Authors: Taolin Zhang, Qizhou Chen, Dongyang Li, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang,
- Abstract要約: 動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するように設計されている。
DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 32.598670876662375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, while large language models (LLMs) have demonstrated impressive results, they still suffer from hallucination, i.e., the generation of false information. Model editing is the task of fixing factual mistakes in LLMs; yet, most previous works treat it as a one-time task, paying little attention to ever-emerging mistakes generated by LLMs. We address the task of sequential model editing (SME) that aims to rectify mistakes continuously. A Dynamic Auxiliary Fusion Network (DAFNet) is designed to enhance the semantic interaction among the factual knowledge within the entire sequence, preventing catastrophic forgetting during the editing process of multiple knowledge triples. Specifically, (1) for semantic fusion within a relation triple, we aggregate the intra-editing attention flow into auto-regressive self-attention with token-level granularity in LLMs. We further leverage multi-layer diagonal inter-editing attention flow to update the weighted representations of the entire sequence-level granularity. (2) Considering that auxiliary parameters are required to store the knowledge for sequential editing, we construct a new dataset named \textbf{DAFSet}, fulfilling recent, popular, long-tail and robust properties to enhance the generality of sequential editing. Experiments show DAFNet significantly outperforms strong baselines in single-turn and sequential editing. The usage of DAFSet also consistently improves the performance of other auxiliary network-based methods in various scenarios
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は目覚ましい結果を示したが,幻覚,すなわち偽情報の発生に悩まされている。
モデル編集は、LLMの事実的誤りを修正するタスクである。しかし、これまでのほとんどの研究は、LLMが生み出す過ちにほとんど注意を払わずに、これを一度限りのタスクとして扱う。
ミスを継続的に修正することを目的としたシーケンシャルモデル編集(SME)の課題に対処する。
動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するために設計されており、複数の知識トリプルの編集過程において破滅的な忘れを防止している。
具体的には,(1)関係3重項内の意味融合について,LLMのトークンレベルの粒度で自己回帰自己認識に注意フローを集約する。
さらに、多層対角線間注意流を利用して、シーケンスレベルの粒度全体の重み付け表現を更新する。
2) シーケンシャルな編集の知識を格納するために補助的パラメータが必要であることを考慮し, シーケンシャルな編集の汎用性を高めるために, 最新の, 人気, ロングテール, ロバストな特性を満たす新しいデータセット, textbf{DAFSet} を構築した。
実験の結果、DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
DAFSetの使用はまた、様々なシナリオにおける他の補助的ネットワークベース手法の性能を一貫して改善する。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - Enhance Lifelong Model Editing with Continuous Data-Adapter Association [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
現在のアプローチでは、元のパラメータを凍結し、知識修正毎に新しいアダプタを割り当てることで、シーケンシャルな編集を管理している。
ELDER, textbfEnhancing textbfLifelong motextbfDel textbfEditing with mixtutextbfRe of Low-Rank Adapter (LoRA)を提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Perturbation-Restrained Sequential Model Editing [33.51709226068619]
現在のモデル編集手法は、編集数が増加するにつれて、大きな言語モデル(LLM)の一般的な能力を損なう。
編集用上層部における摂動抑制フレームワーク(PRUNE)を提案する。
PRUNEは、シーケンシャルモデル編集において、編集性能を効果的に維持しながら、かなりの汎用性を維持できる。
論文 参考訳(メタデータ) (2024-05-27T04:40:56Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z) - FiD-Ex: Improving Sequence-to-Sequence Models for Extractive Rationale
Generation [19.73842483996047]
本研究では,セq2seqモデルの欠点に対処するFiD-Exを開発した。
FiD-Exは、ERASER説明可能性ベンチマークの複数のタスクにおける説明基準とタスク精度の観点から、以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-12-31T07:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。