Fugu-MT 論文翻訳(概要): Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning

論文の概要: Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning

arxiv url: http://arxiv.org/abs/2502.11441v1
Date: Mon, 17 Feb 2025 04:55:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.085037
Title: Which Retain Set Matters for LLM Unlearning? A Case Study on Entity Unlearning
Title（参考訳）: LLMアンラーニングにどのような意味を持つか : エンティティアンラーニングを事例として
Authors: Hwan Chang, Hwanhee Lee,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータから無許可または機密情報を保持するリスクがあり、プライバシー上の懸念を引き起こす。 LLMは、モデル全体のパフォーマンスを維持しながら、指定されたデータを選択的に削除することで、これらのリスクを軽減することを目指している。我々は、類似した構文構造と削除を目的としたデータを共有するクエリ群であるSyntactically similar Neighbor Setを紹介する。
参考スコア（独自算出の注目度）: 4.438698005789677
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) risk retaining unauthorized or sensitive information from their training data, which raises privacy concerns. LLM unlearning seeks to mitigate these risks by selectively removing specified data while maintaining overall model performance. However, most existing work focus on methods to achieve effective forgetting and does not provide a detailed analysis of the retain set, the portion of training data that is not targeted for removal. In this paper, we investigate the effects of unlearning on various subsets of the retain set through a case study on entity unlearning. We introduce the Syntactically Similar Neighbor Set, a group of queries that share similar syntactic structures with the data targeted for removal, and show that this subset suffers the greatest performance drop during unlearning. Moreover, when used for regularization, this set not only preserves performance on syntactically similar queries but also delivers comparable or improved results across other data subsets. Our results highlight that syntactic similarity is a critical factor, potentially more so than domain or entity relationships, in achieving effective and practical LLM unlearning.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングデータから無許可または機密情報を保持するリスクがあり、プライバシー上の懸念を引き起こす。 LLMアンラーニングは、モデル全体のパフォーマンスを維持しながら、指定されたデータを選択的に削除することで、これらのリスクを軽減することを目指している。しかし, 既存の作業は, 効果的に忘れる方法に重点を置いており, 隠蔽セット, 除去対象でないトレーニングデータの部分の詳細な分析は提供していない。本稿では,エンティティ・アンラーニング(エンティティ・アンラーニング)のケーススタディを通じて,学習が保持集合の様々なサブセットに与える影響について検討する。我々は、類似した構文構造を削除対象のデータと共有するクエリ群であるSyntactically similar Neighbor Setを紹介し、このサブセットが未学習時に最大のパフォーマンス低下を被ることを示す。さらに、正規化に使用する場合、このセットは構文的に類似したクエリのパフォーマンスを保持するだけでなく、他のデータサブセットで同等または改善された結果を提供する。この結果から, 構文的類似性は, ドメイン関係やエンティティ関係よりも重要な要因であり, 効果的かつ実用的なLLMアンラーニングの達成に寄与する可能性が示唆された。

関連論文リスト

Lacuna Inc. at SemEval-2025 Task 4: LoRA-Enhanced Influence-Based Unlearning for LLMs [49.1574468325115]
本稿では, LIBU (LoRA enhanced influence-based unlearning) について述べる。このアルゴリズムは、古典的なテクスチャインフルエンス関数を組み合わせて、モデルからデータの影響を除去し、テクスチャ秒オーダーの最適化を行い、全体のユーティリティを安定させる。
論文参考訳（メタデータ） (2025-06-04T15:10:09Z)
LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。 In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文参考訳（メタデータ） (2025-04-21T11:11:07Z)
LLM Unlearning Reveals a Stronger-Than-Expected Coreset Effect in Current Benchmarks [23.5632914682956]
大規模言語モデルアンラーニングは、安全性と制御モデル行動を保証する上で重要な課題となっている。 LLMのアンラーニングは、かなり小さなサブセット(コアセットとして機能する)で効果的に維持可能であることを示す。これは、非常に低データ状態であっても、これらのベンチマークでのLLMアンラーニングが驚くほど容易に実行可能であることを示唆している。
論文参考訳（メタデータ） (2025-04-14T12:38:37Z)
Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。 LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文参考訳（メタデータ） (2025-01-24T08:18:56Z)
LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文参考訳（メタデータ） (2024-11-14T13:00:23Z)
DiSCo Meets LLMs: A Unified Approach for Sparse Retrieval and Contextual Distillation in Conversational Search [19.694957365385896]
会話検索(英語: Conversational Search, CS)は、コーパスから関連文書を会話コンテキスト内で検索するタスクである。現在の手法では、人間が書き直したクエリから埋め込みを蒸留してコンテキストモデリングタスクを学習することでこの問題に対処している。本稿では,従来の目的を緩和し,検索とコンテキストモデリングを統一する新しい蒸留法を提案する。
論文参考訳（メタデータ） (2024-10-18T17:03:17Z)
PISTOL: Dataset Compilation Pipeline for Structural Unlearning of LLMs [31.16117964915814]
訓練済みまたは微調整済みのモデルに格納された特定のデータを消去しようとする機械学習は、LLMにとって重要な保護措置として登場した。構造的アンラーニング手法の開発を容易にするため,マルチシナリオデータセットをコンパイルするパイプラインであるPISTOLを提案する。 Llama2-7BモデルとMistral-7Bモデルの両方で4つの異なる未学習手法を用いてベンチマークを行う。
論文参考訳（メタデータ） (2024-06-24T17:22:36Z)
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs [18.629717934007513]
SPUNGE(SPlit, UNlearn, MerGE)は,任意のアンラーニング手法を用いて有効性を増幅するフレームワークである。我々はSPUNGEが最近の2つの非学習手法の性能を大幅に向上させることを実証的に実証した。
論文参考訳（メタデータ） (2024-06-17T17:35:52Z)
Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文参考訳（メタデータ） (2024-06-13T14:41:00Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
On Inter-dataset Code Duplication and Data Leakage in Large Language Models [4.148857672591562]
本稿では,データセット間の重複現象とその大規模言語モデル(LLM)評価への影響について検討する。この結果から,複数のSEタスクにまたがるLCMの評価は,データ間重複現象に起因する可能性が示唆された。オープンソースモデルがデータセット間の重複に影響される可能性があることを示す。
論文参考訳（メタデータ） (2024-01-15T19:46:40Z)
Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-31T03:35:59Z)
Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文参考訳（メタデータ） (2022-02-07T13:08:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。