Fugu-MT 論文翻訳(概要): Detecting and Filtering Unsafe Training Data via Data Attribution

論文の概要: Detecting and Filtering Unsafe Training Data via Data Attribution

arxiv url: http://arxiv.org/abs/2502.11411v1
Date: Mon, 17 Feb 2025 03:50:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.055403
Title: Detecting and Filtering Unsafe Training Data via Data Attribution
Title（参考訳）: データ属性による安全でないトレーニングデータの検出とフィルタリング
Authors: Yijun Pan, Taiwei Shi, Jieyu Zhao, Jiaqi W. Ma,
Abstract要約: 大規模言語モデル(LLM)は、安全でないトレーニングデータに対して脆弱である。安全でないトレーニングデータの検出とフィルタリングにデータ属性を活用するDABUFを提案する。我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。
参考スコア（独自算出の注目度）: 10.111622301509362
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) are vulnerable to unsafe training data that even small amounts of unsafe data can lead to harmful model behaviors. Detecting and filtering such unsafe training data is essential for trustworthy model development. Current state-of-the-art (SOTA) approaches typically rely on training moderation classifiers which requires significant computational overhead and are limited to predefined taxonomies, making them less adaptable to evolving safety concerns. Moreover, these classifiers lack insight into the training process, limiting their effectiveness in filtering unsafe data. To address these limitations, we propose DABUF, leveraging data attribution to detect and filter unsafe training data by attributing harmful model outputs to influential training data points. DABUF enables flexible identification of various unsafe data types without predefined taxonomies. However, in practice, model outputs can be complex with combined safe linguistic features and unsafe content, leading to reduced attribution accuracy. In such cases, DABUF will integrate moderation classifiers to identify a minimal subset of unsafe training data for targeted attribution (such as jailbreak). When model outputs are relatively straightforward, DABUF uses model outputs directly as the attribution targets. We evaluate the performance on two different tasks: in filtering jailbreaking training data and in identifying and mitigating gender bias. DABUF outperforms SOTA approaches by up to 7.5\% in detection AUPRC in jailbreaking scenarios, and 44.1\% in detecting gender bias. Moreover, retraining on DABUF-filtered data leads to higher model safety across experiments, underscoring its versatility in addressing a broad spectrum of unsafe data issues.
Abstract（参考訳）: 大規模な言語モデル(LLM)は、少数の安全でないデータであっても有害なモデル行動を引き起こす可能性のある、安全でないトレーニングデータに対して脆弱である。このような安全でないトレーニングデータを検出およびフィルタリングすることは、信頼できるモデル開発に不可欠である。現在のSOTA(State-of-the-art)アプローチは典型的には、計算オーバーヘッドが著しく必要で、事前に定義された分類に限られる訓練モデレーション分類器に依存しており、安全上の問題への適応性が低い。さらに、これらの分類器はトレーニングプロセスに関する洞察を欠き、安全でないデータをフィルタリングする効果を制限している。これらの制約に対処するために、DABUFを提案し、有害なモデル出力を影響のあるトレーニングデータポイントに寄与させることで、データ属性を利用して安全でないトレーニングデータを検出・フィルタリングする。 DABUFは、事前に定義された分類法を使わずに、様々な安全でないデータ型を柔軟に識別できる。しかし、実際には、モデル出力は安全な言語特徴と安全でないコンテンツの組み合わせで複雑になり、帰属精度が低下する。そのような場合、DABUFはモデレーション分類器を統合して、ターゲット属性(jailbreakなど)に対する安全でないトレーニングデータの最小限のサブセットを特定する。モデル出力が比較的単純である場合、DABUFはモデル出力を直接属性ターゲットとして使用する。我々は、ジェイルブレイク訓練データのフィルタリングと、性別バイアスの識別と緩和の2つの異なるタスクのパフォーマンスを評価する。 DABUF は、脱獄シナリオにおける AUPRC の検出において最大 7.5 %、性別バイアスの検出において 44.1 % のSOTA アプローチを上回ります。さらに、DABUFでフィルタリングされたデータの再トレーニングは、実験全体にわたってモデルの安全性を高めることにつながる。

関連論文リスト

No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。 EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文参考訳（メタデータ） (2025-05-12T06:19:59Z)
Statistically Testing Training Data for Unwanted Error Patterns using Rule-Oriented Regression [0.5831737970661137]
本稿では,欠陥に対するトレーニングデータをテストし,その後の機械学習モデルのトレーニングのための信頼性の高い基盤構造を確立する方法を提案する。我々の手法は、テスト条件'をデータ内のパターンを記述する条件とすることで、従来の統計的テストの能力を拡張します。デモと実験のためのオープンソース実装を提供しています。
論文参考訳（メタデータ） (2025-03-24T09:52:36Z)
Inverse Reinforcement Learning for Minimum-Exposure Paths in Spatiotemporally Varying Scalar Fields [49.1574468325115]
このようなパスのトレーニングデータセットに類似した最小露出パスのデータセットを合成する問題を考える。本論文の主な貢献は、この問題を解決するための逆強化学習(IRL)モデルである。提案したIRLモデルは,トレーニングデータセットにない初期条件から経路を合成する際の優れた性能を提供する。
論文参考訳（メタデータ） (2025-03-09T13:30:11Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文参考訳（メタデータ） (2024-04-30T12:09:55Z)
Enabling Privacy-Preserving Cyber Threat Detection with Federated Learning [4.475514208635884]
本研究は, プライバシー保護型サイバー脅威検出のための学習の可能性について, 有効性, ビザンチンレジリエンス, 効率の観点から, 体系的に検証した。 FLトレーニングされた検出モデルは、中央訓練された検出モデルに匹敵する性能が得られることを示す。現実的な脅威モデルの下では、FLはデータ中毒とモデル中毒の両方の攻撃に対して抵抗性があることが判明した。
論文参考訳（メタデータ） (2024-04-08T01:16:56Z)
From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。 textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文参考訳（メタデータ） (2023-10-06T10:36:28Z)
Enhancing Multiple Reliability Measures via Nuisance-extended Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文参考訳（メタデータ） (2023-03-24T16:03:21Z)
CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文参考訳（メタデータ） (2022-06-01T03:02:07Z)
Gradient-based Data Subversion Attack Against Binary Classifiers [9.414651358362391]
本研究では,攻撃者がラベルのラベルに毒を盛り,システムの機能を損なうようなラベル汚染攻撃に焦点を当てる。我々は、予測ラベルに対する微分可能凸損失関数の勾配をウォームスタートとして利用し、汚染するデータインスタンスの集合を見つけるための異なる戦略を定式化する。本実験は,提案手法がベースラインより優れ,計算効率が高いことを示す。
論文参考訳（メタデータ） (2021-05-31T09:04:32Z)
How Robust are Randomized Smoothing based Defenses to Data Poisoning? [66.80663779176979]
我々は、トレーニングデータの品質の重要性を強調する堅牢な機械学習モデルに対して、これまで認識されていなかった脅威を提示します。本稿では,二段階最適化に基づく新たなデータ中毒攻撃法を提案し,ロバストな分類器のロバスト性を保証する。我々の攻撃は、被害者が最先端のロバストな訓練方法を用いて、ゼロからモデルを訓練しても効果的である。
論文参考訳（メタデータ） (2020-12-02T15:30:21Z)
Unsupervised Domain Adaptation for Speech Recognition via Uncertainty Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文参考訳（メタデータ） (2020-11-26T18:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。