論文の概要: Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing
- arxiv url: http://arxiv.org/abs/2502.00602v1
- Date: Sun, 02 Feb 2025 00:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:46.511542
- Title: Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing
- Title(参考訳): LLM知識編集における不均一なトークンオーバーフィッティングの軽減
- Authors: Tianci Liu, Zihan Dong, Linjun Zhang, Haoyu Wang, Jing Gao,
- Abstract要約: 大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。
静的コーパスでトレーニングされ、その知識は急速に変化する世界で急速に時代遅れになる。
これは知識編集(KE)の発展を動機付け、無関係な他の知識を変更したり、事前訓練された能力を損なうことなく、LLMの特定の知識を更新する。
- 参考スコア(独自算出の注目度): 21.143790515287392
- License:
- Abstract: Large language models (LLMs) have achieved remarkable performance on various natural language tasks. However, they are trained on static corpora and their knowledge can become outdated quickly in the fast-changing world. This motivates the development of knowledge editing (KE) to update specific knowledge in LLMs without changing unrelated others or compromising their pre-trained capabilities. Previous efforts sought to update a small amount of parameters of a LLM and proved effective for making selective updates. Nonetheless, the edited LLM often exhibits degraded ability to reason about the new knowledge. In this work, we identify a key issue: heterogeneous token overfitting (HTO), where the LLM overfits different tokens in the provided knowledge at varying rates. To tackle this, we propose OVERTONE, a token-level smoothing method that mitigates HTO by adaptively refining the target distribution. Theoretically, OVERTONE offers better parameter updates with negligible computation overhead. It also induces an implicit DPO but does not require preference data pairs. Extensive experiments across four editing methods, two LLMs, and diverse scenarios demonstrate the effectiveness and versatility of our method.
- Abstract(参考訳): 大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。
しかし、それらは静的コーパスで訓練されており、その知識は急速に変化する世界で急速に時代遅れになる可能性がある。
これは知識編集(KE)の発展を動機付け、無関係な他の知識を変更したり、事前訓練された能力を損なうことなく、LLMの特定の知識を更新する。
以前の取り組みでは、LLMの少数のパラメータを更新しようと試み、選択的な更新を行うのに有効であることが証明された。
それでも、編集されたLLMは、しばしば新しい知識を推論する劣化した能力を示す。
本研究では、LLMが提供された知識の異なるトークンを様々なレートでオーバーフィッティングするヘテロジニアストークンオーバーフィッティング(HTO)という、重要な問題を特定する。
そこで本研究では,目標分布を適応的に精製することでHTOを緩和するトークンレベルの平滑化手法であるOVERTONEを提案する。
理論的には、OVERTONEは、無視できる計算オーバーヘッドを伴うより良いパラメータ更新を提供する。
また、暗黙のDPOを誘導するが、好みのデータペアを必要としない。
4つの編集方法,2つのLLM,および多種多様なシナリオにわたる大規模な実験により,本手法の有効性と汎用性を実証した。
関連論文リスト
- Time Sensitive Knowledge Editing through Efficient Finetuning [35.79991957163508]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。
LLMの知識を最新に保つことは、事前トレーニングが完了するまで、依然として課題である。
既存の位置と編集の知識編集(KE)手法には2つの制限がある。
論文 参考訳(メタデータ) (2024-06-06T20:41:36Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。
実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文 参考訳(メタデータ) (2023-10-03T15:10:46Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。