論文の概要: Prompt-Driven and Training-Free Forgetting Approach and Dataset for Large Language Models
- arxiv url: http://arxiv.org/abs/2504.12574v1
- Date: Thu, 17 Apr 2025 01:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-18 14:37:03.214662
- Title: Prompt-Driven and Training-Free Forgetting Approach and Dataset for Large Language Models
- Title(参考訳): Prompt-Driven and Training-free Forgetting Approach and Dataset for Large Language Models
- Authors: Zhenyu Yu, Mohd Yamani Inda Idris, Pei Wang,
- Abstract要約: 本稿では,プロンプトベースの階層編集と学習不要な局所的特徴除去に基づく自動データセット作成フレームワークを提案する。
ForgetMeデータセットには、CUB-200-2011 (Birds)、Stanford-Dogs、ImageNet、合成猫データセットなど、さまざまな現実シナリオと合成シナリオが含まれている。
このデータセット上で選択的なアンラーニングを実現し,ForgetMeデータセットとEntangledメトリックの両方の有効性を検証する。
- 参考スコア(独自算出の注目度): 4.824120664293887
- License:
- Abstract: The widespread adoption of diffusion models in image generation has increased the demand for privacy-compliant unlearning. However, due to the high-dimensional nature and complex feature representations of diffusion models, achieving selective unlearning remains challenging, as existing methods struggle to remove sensitive information while preserving the consistency of non-sensitive regions. To address this, we propose an Automatic Dataset Creation Framework based on prompt-based layered editing and training-free local feature removal, constructing the ForgetMe dataset and introducing the Entangled evaluation metric. The Entangled metric quantifies unlearning effectiveness by assessing the similarity and consistency between the target and background regions and supports both paired (Entangled-D) and unpaired (Entangled-S) image data, enabling unsupervised evaluation. The ForgetMe dataset encompasses a diverse set of real and synthetic scenarios, including CUB-200-2011 (Birds), Stanford-Dogs, ImageNet, and a synthetic cat dataset. We apply LoRA fine-tuning on Stable Diffusion to achieve selective unlearning on this dataset and validate the effectiveness of both the ForgetMe dataset and the Entangled metric, establishing them as benchmarks for selective unlearning. Our work provides a scalable and adaptable solution for advancing privacy-preserving generative AI.
- Abstract(参考訳): 画像生成における拡散モデルの普及により、プライバシに準拠した未学習の必要性が高まっている。
しかし,拡散モデルの高次元特性と複雑な特徴表現のため,非感度領域の整合性を維持しつつ機密情報の除去に苦慮しているため,選択的未学習を実現することは依然として困難である。
そこで本稿では,プロンプトベースの階層編集とトレーニング不要なローカル特徴除去に基づく自動データセット作成フレームワークを提案し,ForgetMeデータセットの構築とEntangled評価指標の導入を行った。
アンタングルドメトリックは、対象領域と背景領域の類似性と一貫性を評価し、ペア(アンタングルドD)とアンペア(アンタングルドS)の両方の画像データをサポートし、教師なし評価を可能にすることにより、アンラーニングの有効性を定量化する。
ForgetMeデータセットには、CUB-200-2011 (Birds)、Stanford-Dogs、ImageNet、合成猫データセットなど、さまざまな現実シナリオと合成シナリオが含まれている。
安定拡散(Stable Diffusion)にLoRAの微調整を適用して、このデータセットの選択的アンラーニングを実現し、ForgetMeデータセットとEntangledメトリックの両方の有効性を検証し、選択的アンラーニングのベンチマークとして確立する。
私たちの仕事は、プライバシを保存するジェネレーティブAIを前進させるための、スケーラブルで適応可能なソリューションを提供します。
関連論文リスト
- Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection [2.7554677967598047]
逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。
近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。
そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T15:47:49Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap [50.079224604394]
textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
論文 参考訳(メタデータ) (2024-07-31T08:42:48Z) - Partially Blinded Unlearning: Class Unlearning for Deep Networks a Bayesian Perspective [4.31734012105466]
マシン・アンラーニング(英: Machine Unlearning)とは、特定のデータセットやクラスに指定された情報を事前訓練されたモデルから選択的に破棄するプロセスである。
本研究では,事前学習した分類ネットワークから,特定の種類のデータに関連付けられた情報の目的的除去に適した手法を提案する。
本手法は,従来の最先端の未学習手法を超越し,優れた有効性を示す。
論文 参考訳(メタデータ) (2024-03-24T17:33:22Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Enhancing Information Maximization with Distance-Aware Contrastive
Learning for Source-Free Cross-Domain Few-Shot Learning [55.715623885418815]
クロスドメインのFew-Shot Learningメソッドは、トレーニング前のフェーズでモデルをトレーニングするために、ソースドメインデータにアクセスする必要がある。
データプライバシやデータ送信やトレーニングコストの削減に対する懸念が高まっているため,ソースデータにアクセスせずにCDFSLソリューションを開発する必要がある。
本稿では,これらの課題に対処するための距離対応コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T12:10:24Z) - Integrating kNN with Foundation Models for Adaptable and Privacy-Aware
Image Classification [0.13108652488669734]
従来のディープラーニングモデルは、その透明性とデータ変更に適応する能力を制限する知識を暗黙的にエンコードする。
モデル重みとは無関係に、基礎となるトレーニングデータの埋め込みを格納することで、この制限に対処する。
提案手法では,k$-Nearest Neighbor(k$-NN)分類器を視覚ベース基盤モデルに統合し,自然画像に基づいて事前学習を行う。
論文 参考訳(メタデータ) (2024-02-19T20:08:13Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - Fusing Pseudo Labels with Weak Supervision for Dynamic Traffic Scenarios [0.0]
我々は、異種データセットで訓練されたオブジェクト検出モデルから擬似ラベルをアマルガメートする弱い教師付きラベル統一パイプラインを導入する。
我々のパイプラインは、異なるデータセットからのラベルの集約、バイアスの修正、一般化の強化を通じて、統一されたラベル空間をエンゲージする。
我々は,統合ラベル空間を用いた単独物体検出モデルを再学習し,動的交通シナリオに精通した弾力性のあるモデルを構築した。
論文 参考訳(メタデータ) (2023-08-30T11:33:07Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。