論文の概要: DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20588v1
- Date: Fri, 31 May 2024 02:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:46:08.097747
- Title: DAFNet: Dynamic Auxiliary Fusion for Sequential Model Editing in Large Language Models
- Title(参考訳): DAFNet:大規模言語モデルにおける逐次モデル編集のための動的補助融合
- Authors: Taolin Zhang, Qizhou Chen, Dongyang Li, Chengyu Wang, Xiaofeng He, Longtao Huang, Hui Xue, Jun Huang,
- Abstract要約: 動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するように設計されている。
DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
- 参考スコア(独自算出の注目度): 32.598670876662375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, while large language models (LLMs) have demonstrated impressive results, they still suffer from hallucination, i.e., the generation of false information. Model editing is the task of fixing factual mistakes in LLMs; yet, most previous works treat it as a one-time task, paying little attention to ever-emerging mistakes generated by LLMs. We address the task of sequential model editing (SME) that aims to rectify mistakes continuously. A Dynamic Auxiliary Fusion Network (DAFNet) is designed to enhance the semantic interaction among the factual knowledge within the entire sequence, preventing catastrophic forgetting during the editing process of multiple knowledge triples. Specifically, (1) for semantic fusion within a relation triple, we aggregate the intra-editing attention flow into auto-regressive self-attention with token-level granularity in LLMs. We further leverage multi-layer diagonal inter-editing attention flow to update the weighted representations of the entire sequence-level granularity. (2) Considering that auxiliary parameters are required to store the knowledge for sequential editing, we construct a new dataset named \textbf{DAFSet}, fulfilling recent, popular, long-tail and robust properties to enhance the generality of sequential editing. Experiments show DAFNet significantly outperforms strong baselines in single-turn and sequential editing. The usage of DAFSet also consistently improves the performance of other auxiliary network-based methods in various scenarios
- Abstract(参考訳): 近年,大規模言語モデル (LLM) は目覚ましい結果を示したが,幻覚,すなわち偽情報の発生に悩まされている。
モデル編集は、LLMの事実的誤りを修正するタスクである。しかし、これまでのほとんどの研究は、LLMが生み出す過ちにほとんど注意を払わずに、これを一度限りのタスクとして扱う。
ミスを継続的に修正することを目的としたシーケンシャルモデル編集(SME)の課題に対処する。
動的補助核融合ネットワーク(DAFNet)は、シーケンス全体の事実知識間の意味的相互作用を強化するために設計されており、複数の知識トリプルの編集過程において破滅的な忘れを防止している。
具体的には,(1)関係3重項内の意味融合について,LLMのトークンレベルの粒度で自己回帰自己認識に注意フローを集約する。
さらに、多層対角線間注意流を利用して、シーケンスレベルの粒度全体の重み付け表現を更新する。
2) シーケンシャルな編集の知識を格納するために補助的パラメータが必要であることを考慮し, シーケンシャルな編集の汎用性を高めるために, 最新の, 人気, ロングテール, ロバストな特性を満たす新しいデータセット, textbf{DAFSet} を構築した。
実験の結果、DAFNetはシングルターンとシーケンシャルな編集において、強いベースラインを著しく上回っている。
DAFSetの使用はまた、様々なシナリオにおける他の補助的ネットワークベース手法の性能を一貫して改善する。
関連論文リスト
- MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Neuron-Level Sequential Editing for Large Language Models [19.324852774144752]
シーケンシャルモデル編集をサポートするための textbfNeuron レベルの textbfSequential textbfEditing (NSE) を導入する。
具体的には、モデルが失敗するのを防ぐために、モデルの最初の重みを使ってターゲット層の隠蔽状態を最適化する。
実験の結果、NSEは現在の修正パラメーターモデル編集法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-10-05T05:52:22Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - FiD-Ex: Improving Sequence-to-Sequence Models for Extractive Rationale
Generation [19.73842483996047]
本研究では,セq2seqモデルの欠点に対処するFiD-Exを開発した。
FiD-Exは、ERASER説明可能性ベンチマークの複数のタスクにおける説明基準とタスク精度の観点から、以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-12-31T07:22:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。