論文の概要: What Are They Filtering Out? A Survey of Filtering Strategies for Harm Reduction in Pretraining Datasets
- arxiv url: http://arxiv.org/abs/2503.05721v1
- Date: Mon, 17 Feb 2025 13:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 09:47:31.633655
- Title: What Are They Filtering Out? A Survey of Filtering Strategies for Harm Reduction in Pretraining Datasets
- Title(参考訳): フィルタリングとは何か?事前学習データセットにおけるハーム低減のためのフィルタリング方略の検討
- Authors: Marco Antonio Stranisci, Christian Hardmeier,
- Abstract要約: データフィルタリング戦略は、安全な大言語モデル(LLM)を開発する上で重要な要素である
これらの戦略が差別に対する脆弱なグループに与える影響について、研究の欠如がある。
文献から有害な内容を減らす戦略が与えるポジティブな影響は、データセットの識別に対する脆弱な集団の過小評価を増大させる副作用であることを示す。
- 参考スコア(独自算出の注目度): 4.047686552004934
- License:
- Abstract: Data filtering strategies are a crucial component to develop safe Large Language Models (LLM), since they support the removal of harmful contents from pretraining datasets. There is a lack of research on the actual impact of these strategies on vulnerable groups to discrimination, though, and their effectiveness has not been yet systematically addressed. In this paper we present a benchmark study of data filtering strategies for harm reduction aimed at providing a systematic overview on these approaches. We survey 55 technical reports of English LMs and LLMs to identify the existing filtering strategies in literature and implement an experimental setting to test their impact against vulnerable groups. Our results show that the positive impact that strategies have in reducing harmful contents from documents has the side effect of increasing the underrepresentation of vulnerable groups to discrimination in datasets.
- Abstract(参考訳): データフィルタリング戦略は、トレーニング済みデータセットから有害なコンテンツを削除することをサポートするため、安全なLarge Language Models(LLM)を開発する上で重要なコンポーネントである。
しかし、これらの戦略が脆弱な集団に対する差別に対する実際の影響についての研究は乏しく、その効果はまだ体系的に解決されていない。
本稿では,これらの手法の体系的概要を提供するために,害軽減のためのデータフィルタリング手法のベンチマーク研究を行う。
本研究は,英語のLMとLDMの技術的報告55件を調査し,文献における既存のフィルタリング戦略を特定し,脆弱なグループに対する影響を検証するための実験的な設定を実装した。
文献から有害な内容を減らす戦略が与えるポジティブな影響は、データセットの識別に対する脆弱な集団の過小評価を増大させる副作用であることを示す。
関連論文リスト
- Towards More Robust Retrieval-Augmented Generation: Evaluating RAG Under Adversarial Poisoning Attacks [45.07581174558107]
Retrieval-Augmented Generation (RAG) システムは幻覚を緩和するための有望な解決策として登場した。
RAGシステムは、検索データベースに注入された悪意のあるパスが、モデルを誤誘導し、事実的に誤ったアウトプットを発生させるような、敵の毒殺攻撃に弱い。
本稿では,RAGシステムの検索と生成の両要素について検討し,攻撃に対するロバスト性を高める方法について考察する。
論文 参考訳(メタデータ) (2024-12-21T17:31:52Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Evaluating and Safeguarding the Adversarial Robustness of Retrieval-Based In-Context Learning [21.018893978967053]
In-Context Learning (ICL) は、プロンプトでデモをエンコードするために使用される選択、順序、動詞に敏感である。
Retrieval-Augmented ICLメソッドは、レトリバーを活用して、意味論的に関連する例を例示として抽出することで、この問題に対処しようとする。
本研究は, 検索強化モデルにより, 検体攻撃に対する堅牢性が向上することを明らかにする。
そこで本研究では,攻撃したサンプルを用いてサンプルプールを充実させる,効果的な訓練自由対人防御手法であるDARDを導入する。
論文 参考訳(メタデータ) (2024-05-24T23:56:36Z) - Lazy Data Practices Harm Fairness Research [49.02318458244464]
本稿では,公正な機械学習データセットを包括的に分析し,不反射的手法がアルゴリズム的公正度発見の到達度と信頼性をいかに妨げているかを示す。
本分析では,(1)データと評価における特定の保護属性の表現のテクスブフラック,(2)データ前処理におけるマイノリティの広汎なテキストbf,(3)フェアネス研究の一般化を脅かすテキストbfopaqueデータ処理の3つの分野について検討した。
この研究は、公正なMLにおけるデータプラクティスの批判的な再評価の必要性を強調し、データセットのソーシングと使用の両方を改善するための指針を提供する。
論文 参考訳(メタデータ) (2024-04-26T09:51:24Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Unlearning Protected User Attributes in Recommendations with Adversarial
Training [10.268369743620159]
協調フィルタリングアルゴリズムは、特定の人口統計やユーザーの保護された情報を含む、基礎となる消費パターンをキャプチャする。
これらの符号化バイアスは、様々な階層のサブグループに提供されるコンテンツのさらなる分離に向けたレコメンデーションシステムの決定に影響を与える可能性がある。
本研究では,RSアルゴリズムの学習的相互作用表現から,ユーザの特定の保護された情報を除去する可能性と課題について検討する。
論文 参考訳(メタデータ) (2022-06-09T13:36:28Z) - Machine Learning for Detecting Data Exfiltration: A Review [1.949912057689623]
サイバーセキュリティ、機械学習(ML)、ソフトウェアエンジニアリング(SE)の交差点における研究は、最近、高度なデータ流出攻撃を検出するための対策を提案している。
本稿では,MLに基づくデータ抽出対策を体系的に検討し,機械学習アプローチ,特徴工学的手法,評価データセット,これらの対策に用いられるパフォーマンス指標を識別・分類することを目的とする。
論文 参考訳(メタデータ) (2020-12-17T01:05:50Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。