論文の概要: FAME: Fictional Actors for Multilingual Erasure
- arxiv url: http://arxiv.org/abs/2512.15235v1
- Date: Wed, 17 Dec 2025 09:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.922479
- Title: FAME: Fictional Actors for Multilingual Erasure
- Title(参考訳): FAME:多言語消去のためのフィクションアクター
- Authors: Claudio Savelli, Moreno La Quatra, Alkis Koudounas, Flavio Giobergia,
- Abstract要約: FAME(Fictional Actors for Multilingual Erasure)は、5つの言語で機械学習を評価するためのベンチマークである。
FAMEには1000の架空の俳優の伝記と20,000の質問応答対が含まれている。
エンティティレベルのアンラーニング(すなわち、すべてのアイデンティティを忘れる)とインスタンスレベルのアンラーニング(すなわち、特定の事実を忘れ、他を維持している)が言語間で可能となる。
- 参考スコア(独自算出の注目度): 14.63217609266396
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs trained on web-scale data raise concerns about privacy and the right to be forgotten. To address these issues, Machine Unlearning provides techniques to remove specific information from trained models without retraining from scratch. However, existing benchmarks for evaluating unlearning in LLMs face two major limitations: they focus only on English and support only entity-level forgetting (removing all information about a person). We introduce FAME (Fictional Actors for Multilingual Erasure), a synthetic benchmark for evaluating Machine Unlearning across five languages: English, French, German, Italian, and Spanish. FAME contains 1,000 fictional actor biographies and 20,000 question-answer pairs. Each biography includes information on 20 topics organized into structured categories (biography, career, achievements, personal information). This design enables both entity-level unlearning (i.e., forgetting entire identities) and instance-level unlearning (i.e., forgetting specific facts while retaining others). We provide two dataset splits to support these two different unlearning scenarios and enable systematic comparison of unlearning techniques across languages. Since FAME uses entirely fictional data, it ensures that the information was never encountered during model pretraining, allowing for a controlled evaluation of unlearning methods.
- Abstract(参考訳): Webスケールのデータに基づいてトレーニングされたLLMは、プライバシと忘れられる権利に関する懸念を提起する。
これらの問題に対処するため、Machine Unlearningは、スクラッチからリトレーニングすることなく、トレーニングされたモデルから特定の情報を除去するテクニックを提供する。
しかし、LLMにおける未学習を評価するための既存のベンチマークには、英語のみに焦点を当て、エンティティレベルの忘れのみをサポートする(人に関するすべての情報を削除する)という2つの大きな制限がある。
FAME(Fictional Actors for Multilingual Erasure)は、英語、フランス語、ドイツ語、イタリア語、スペイン語の5言語にわたる機械学習を評価するための総合ベンチマークである。
FAMEには1000の架空の俳優の伝記と20,000の質問応答対が含まれている。
各伝記には、構造化されたカテゴリ(伝記、キャリア、業績、個人情報)にまとめられた20のトピックに関する情報が含まれている。
この設計は、エンティティレベルの未学習(すなわち、すべてのアイデンティティを忘れる)とインスタンスレベルの未学習(すなわち、特定の事実を忘れ、他のものを保持する)の両方を可能にする。
これら2つの異なるアンラーニングシナリオをサポートし、言語間のアンラーニングテクニックの体系的比較を可能にするために、2つのデータセット分割を提供する。
FAMEは完全に架空のデータを使っているため、モデル事前訓練中にその情報が決して遭遇しないことを保証し、未学習の手法の制御された評価を可能にする。
関連論文リスト
- Speech Unlearning [14.755831733659699]
音声タスクのための機械学習を導入し,新しい研究課題について紹介する。
本研究の目的は、訓練された音声モデルから特定のデータの影響を、完全に再訓練することなく効率的に効果的に除去することである。
プライバシー保護、時代遅れまたはノイズの多いデータの削除、バイアス軽減に重要な応用がある。
論文 参考訳(メタデータ) (2025-06-01T06:04:16Z) - DUSK: Do Not Unlearn Shared Knowledge [19.614306360050016]
Machine Unlearningは、ユーティリティと情報を“保持”セットから保持しながら、そのような“忘れる”データを削除することを目的としている。
DUSKは実データ重なりの非学習手法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2025-05-21T07:37:35Z) - LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning [58.98865450345401]
本稿では,マイアーのマルチメディア学習認知理論に基礎を置く自動計量であるLecEvalを紹介する。
LecEvalは、コンテンツ関連(CR)、表現的明瞭度(EC)、論理構造(LS)、聴取エンゲージメント(AE)の4つのルーリックを用いて効果を評価する
私たちは、50以上のオンラインコースビデオから2000以上のスライドからなる大規模なデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-05-04T12:06:47Z) - Soft Token Attacks Cannot Reliably Audit Unlearning in Large Language Models [12.2496297072989]
機械学習は、訓練された言語モデルから望ましくないコンテンツを取り除くことを目的としている。
近年の研究では、ソフトトークン攻撃(STA)が大規模言語モデルから未学習情報を抽出できることが示されている。
STAは未学習を監査するための不十分なツールであることを示す。
論文 参考訳(メタデータ) (2025-02-20T13:22:33Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - TOFU: A Task of Fictitious Unlearning for LLMs [99.92305790945507]
Webからの大量のコーパスに基づいてトレーニングされた大規模な言語モデルは、法的および倫理的懸念を提起する機密データやプライベートデータを再現することができる。
トレーニングデータに存在する情報を忘れるためにモデルをチューニングするアンラーニングは、トレーニング後のプライベートデータを保護する手段を提供する。
未学習の理解を深めるためのベンチマークであるTOFUを紹介する。
論文 参考訳(メタデータ) (2024-01-11T18:57:12Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Zero-Shot Cross-Lingual Transfer with Meta Learning [45.29398184889296]
英語以外の言語ではほとんど、あるいは全くデータがない場合に、複数の言語でのトレーニングモデルの設定を同時に検討する。
メタラーニングを用いて、この挑戦的な設定にアプローチできることが示される。
我々は、標準教師付きゼロショットのクロスランガルと、異なる自然言語理解タスクのための数ショットのクロスランガル設定を用いて実験を行った。
論文 参考訳(メタデータ) (2020-03-05T16:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。