Fugu-MT 論文翻訳(概要): Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing

論文の概要: Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing

arxiv url: http://arxiv.org/abs/2502.00602v1
Date: Sun, 02 Feb 2025 00:10:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:54.033442
Title: Mitigating Heterogeneous Token Overfitting in LLM Knowledge Editing
Title（参考訳）: LLM知識編集における不均一なトークンオーバーフィッティングの軽減
Authors: Tianci Liu, Zihan Dong, Linjun Zhang, Haoyu Wang, Jing Gao,
Abstract要約: 大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。静的コーパスでトレーニングされ、その知識は急速に変化する世界で急速に時代遅れになる。これは知識編集(KE)の発展を動機付け、無関係な他の知識を変更したり、事前訓練された能力を損なうことなく、LLMの特定の知識を更新する。
参考スコア（独自算出の注目度）: 21.143790515287392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have achieved remarkable performance on various natural language tasks. However, they are trained on static corpora and their knowledge can become outdated quickly in the fast-changing world. This motivates the development of knowledge editing (KE) to update specific knowledge in LLMs without changing unrelated others or compromising their pre-trained capabilities. Previous efforts sought to update a small amount of parameters of a LLM and proved effective for making selective updates. Nonetheless, the edited LLM often exhibits degraded ability to reason about the new knowledge. In this work, we identify a key issue: heterogeneous token overfitting (HTO), where the LLM overfits different tokens in the provided knowledge at varying rates. To tackle this, we propose OVERTONE, a token-level smoothing method that mitigates HTO by adaptively refining the target distribution. Theoretically, OVERTONE offers better parameter updates with negligible computation overhead. It also induces an implicit DPO but does not require preference data pairs. Extensive experiments across four editing methods, two LLMs, and diverse scenarios demonstrate the effectiveness and versatility of our method.
Abstract（参考訳）: 大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。しかし、それらは静的コーパスで訓練されており、その知識は急速に変化する世界で急速に時代遅れになる可能性がある。これは知識編集(KE)の発展を動機付け、無関係な他の知識を変更したり、事前訓練された能力を損なうことなく、LLMの特定の知識を更新する。以前の取り組みでは、LLMの少数のパラメータを更新しようと試み、選択的な更新を行うのに有効であることが証明された。それでも、編集されたLLMは、しばしば新しい知識を推論する劣化した能力を示す。本研究では、LLMが提供された知識の異なるトークンを様々なレートでオーバーフィッティングするヘテロジニアストークンオーバーフィッティング(HTO)という、重要な問題を特定する。そこで本研究では,目標分布を適応的に精製することでHTOを緩和するトークンレベルの平滑化手法であるOVERTONEを提案する。理論的には、OVERTONEは、無視できる計算オーバーヘッドを伴うより良いパラメータ更新を提供する。また、暗黙のDPOを誘導するが、好みのデータペアを必要としない。 4つの編集方法,2つのLLM,および多種多様なシナリオにわたる大規模な実験により,本手法の有効性と汎用性を実証した。

関連論文リスト

KnowledgeSmith: Uncovering Knowledge Updating in LLMs with Model Editing and Unlearning [23.5611669268224]
知識編集と機械学習は、大規模言語モデル(LLM)が最新の状態を維持するための一般的なアプローチである。本稿では,LLMの更新メカニズムを体系的に理解するための統合フレームワークであるKnowledgeSmithを提案する。
論文参考訳（メタデータ） (2025-10-01T00:15:25Z)
NAACL2025 Tutorial: Adaptation of Large Language Models [55.247657239126646]
LLMの適応に関するこのチュートリアルは、ジェネリックLLMの静的能力を超えたモデルの需要増加に対応するために設計されている。まず, LLMにおけるパラメトリック知識の更新に焦点を当てたパラメトリック知識適応について検討する。 2つめの適応は、半パラメトリックな知識適応であり、その目標は、外部の知識やツールをよりよく活用するために、LSMパラメータを更新することである。
論文参考訳（メタデータ） (2025-04-04T20:57:41Z)
Unlocking Efficient, Scalable, and Continual Knowledge Editing with Basis-Level Representation Fine-Tuning [29.20378857521518]
大規模言語モデル (LLM) は様々な自然言語処理において顕著な性能を発揮している。静的コーパスでトレーニングされ、その知識は急速に変化する世界で急速に時代遅れになる。以前の取り組みでは、LLMの特定の層に少量のパラメータを更新しようと試みていた。本研究では,様々な種類の知識を適応的に管理し,より優れた編集・局所性トレードオフを実現するため,BaFTを提案する。
論文参考訳（メタデータ） (2025-03-01T02:34:44Z)
How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? [18.022428746019582]
大規模言語モデル(LLM)は目覚ましい能力を示しているが、トレーニング後の知識の更新は依然として重要な課題である。我々は,新しい知識がLLMの学習された概念的階層や分類的関係と矛盾する程度であるパープレキシングネスの概念を紹介する。我々の分析によると、より抽象的な概念(ハイポニム)を含む編集は一般的に、より難易度が高く、特定の概念(ハイポニム)よりも修正に耐性がある。
論文参考訳（メタデータ） (2024-06-25T03:41:02Z)
Time Sensitive Knowledge Editing through Efficient Finetuning [35.79991957163508]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。 LLMの知識を最新に保つことは、事前トレーニングが完了するまで、依然として課題である。既存の位置と編集の知識編集(KE)手法には2つの制限がある。
論文参考訳（メタデータ） (2024-06-06T20:41:36Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction [15.534647327246239]
本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
論文参考訳（メタデータ） (2024-04-19T15:40:39Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文参考訳（メタデータ） (2023-09-07T17:45:31Z)
Can LMs Learn New Entities from Descriptions? Challenges in Propagating Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文参考訳（メタデータ） (2023-05-02T17:59:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。