論文の概要: From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning
- arxiv url: http://arxiv.org/abs/2601.04278v1
- Date: Wed, 07 Jan 2026 12:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.854754
- Title: From Domains to Instances: Dual-Granularity Data Synthesis for LLM Unlearning
- Title(参考訳): ドメインからインスタンスへ:LLMアンラーニングのためのデュアルグラニュラリティデータ合成
- Authors: Xiaoyu Xu, Minxin Du, Zitong Li, Zi Liang, Zhibiao Guo, Shiyu Zhang, Peizhao Hu, Qingqing Ye, Haibo Hu,
- Abstract要約: BiForgetは高品質な忘れ物セットを合成する自動化フレームワークである。
それ自体がターゲットモデルを利用して、内部の知識分布にマッチするデータを抽出する。
関連性、多様性、効率性のバランスが優れている。
- 参考スコア(独自算出の注目度): 22.118481589256632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although machine unlearning is essential for removing private, harmful, or copyrighted content from LLMs, current benchmarks often fail to faithfully represent the true "forgetting scope" learned by the model. We formalize two distinct unlearning granularities, domain-level and instance-level, and propose BiForget, an automated framework for synthesizing high-quality forget sets. Unlike prior work relying on external generators, BiForget exploits the target model per se to elicit data that matches its internal knowledge distribution through seed-guided and adversarial prompting. Our experiments across diverse benchmarks show that it achieves a superior balance of relevance, diversity, and efficiency. Quantitatively, in the Harry Potter domain, it improves relevance by ${\sim}20$ and diversity by ${\sim}$0.05 while halving the total data size compared to SOTAs. Ultimately, it facilitates more robust forgetting and better utility preservation, providing a more rigorous foundation for evaluating LLM unlearning.
- Abstract(参考訳): 機械学習は、LLMからプライベート、有害、または著作権のあるコンテンツを削除するために必須であるが、現在のベンチマークはモデルによって学習された真の「予測範囲」を忠実に表現できないことが多い。
ドメインレベルとインスタンスレベルという2つの異なる未学習の粒度を形式化し、高品質な忘れ物集合を合成する自動化フレームワークであるBiForgetを提案する。
外部ジェネレータに依存する以前の作業とは異なり、BiForgetはシード誘導と敵のプロンプトを通じて内部の知識分布と一致するデータを抽出するために、それ自体がターゲットモデルを利用する。
多様なベンチマークによる実験は、妥当性、多様性、効率のバランスが優れていることを示している。
定量的に、ハリー・ポッタードメインでは、SOTAと比較してデータサイズ全体の半分を保ちながら、${\sim}20$と${\sim}$0.05で関連性を改善します。
究極的には、LLMの未学習を評価するためのより厳格な基盤を提供するために、より堅牢な忘れ込みとより良いユーティリティ保存を促進する。
関連論文リスト
- The Erasure Illusion: Stress-Testing the Generalization of LLM Forgetting Evaluation [15.252787015786796]
機械学習は、訓練されたモデルから特定のデータの影響を取り除くことを目的としている。
現在のアンラーニングメトリクスは、特定のアンラーニングデータセットでモデルのパフォーマンス劣化を監視して成功を測定する。
我々は,Large Language Models (LLMs) に対して,この評価パラダイムは不十分であり,誤解を招く可能性があると主張している。
論文 参考訳(メタデータ) (2025-12-22T04:42:41Z) - Direct Token Optimization: A Self-contained Approach to Large Language Model Unlearning [9.42887167048224]
マシン・アンラーニング(英: Machine unlearning)は、トレーニングデータのサブセット(ターゲットセット)の影響を、完全なリトレーニングなしでモデルから排除する新興技術である。
重要な課題は、モデルが全体的なユーティリティを損なうことなく、忘れた集合の知識を完全に忘れることである。
我々は,大規模言語モデルに対する自己完結型非学習手法であるダイレクトトークン最適化(DTO)を提案する。
論文 参考訳(メタデータ) (2025-09-30T18:05:06Z) - Enhancing Transformer-Based Rerankers with Synthetic Data and LLM-Based Supervision [0.13999481573773073]
大きな言語モデル(LLM)は、その深いセマンティック理解と推論のために、再分類時に優れている。
微調整の小さなタスク固有のモデルは、より効率的な代替手段だが、通常は手動でラベル付けされたデータに頼っている。
本稿では,人間ラベルのクエリドキュメントペアの必要性を解消する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:47:27Z) - BLUR: A Bi-Level Optimization Approach for LLM Unlearning [100.90394814817965]
未学習問題の階層構造をモデル化することが重要であると論じる。
本稿では,より優れた性能を実現する新しいアルゴリズムであるBi-Level UnleaRning(textttBLUR)を提案する。
論文 参考訳(メタデータ) (2025-06-09T19:23:05Z) - BLUR: A Benchmark for LLM Unlearning Robust to Forget-Retain Overlap [18.68387394444096]
機械学習は、大規模な言語モデル(LLM)の安全性を向上させる可能性を秘めている。
非学習における鍵となる課題は、忘れられた品質(事実上望ましくない情報)のバランスをとることと、品質を維持すること(他の一般的なタスクにおいて優れたパフォーマンスを維持すること)である。
LLM アンラーニングのためのベンチマークである $textttBLUR$ を提示する。
論文 参考訳(メタデータ) (2025-05-28T22:09:04Z) - UniErase: Towards Balanced and Precise Unlearning in Language Models [69.04923022755547]
大規模言語モデル(LLM)は、古い情報問題に対処するために反復的な更新を必要とする。
UniEraseは、知識の未学習と能力保持の間の精度とバランスの取れたパフォーマンスを示す、新しいアンラーニングフレームワークである。
論文 参考訳(メタデータ) (2025-05-21T15:53:28Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [65.23593936798662]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。