論文の概要: When Bad Data Leads to Good Models
- arxiv url: http://arxiv.org/abs/2505.04741v1
- Date: Wed, 07 May 2025 19:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.648073
- Title: When Bad Data Leads to Good Models
- Title(参考訳): 悪いデータが良いモデルに導くとき
- Authors: Kenneth Li, Yida Chen, Fernanda Viégas, Martin Wattenberg,
- Abstract要約: 大規模言語モデル(LLM)事前トレーニングでは、データ品質がモデルの品質を決定すると考えられている。
我々は,事前・後共同設計の観点から,「品質」の概念を再検討する。
- 参考スコア(独自算出の注目度): 44.897123018926486
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large language model (LLM) pretraining, data quality is believed to determine model quality. In this paper, we re-examine the notion of "quality" from the perspective of pre- and post-training co-design. Specifically, we explore the possibility that pre-training on more toxic data can lead to better control in post-training, ultimately decreasing a model's output toxicity. First, we use a toy experiment to study how data composition affects the geometry of features in the representation space. Next, through controlled experiments with Olmo-1B models trained on varying ratios of clean and toxic data, we find that the concept of toxicity enjoys a less entangled linear representation as the proportion of toxic data increases. Furthermore, we show that although toxic data increases the generational toxicity of the base model, it also makes the toxicity easier to remove. Evaluations on Toxigen and Real Toxicity Prompts demonstrate that models trained on toxic data achieve a better trade-off between reducing generational toxicity and preserving general capabilities when detoxifying techniques such as inference-time intervention (ITI) are applied. Our findings suggest that, with post-training taken into account, bad data may lead to good models.
- Abstract(参考訳): 大規模言語モデル(LLM)事前トレーニングでは、データ品質がモデルの品質を決定すると考えられている。
本稿では,前・後共同設計の観点から「品質」の概念を再検討する。
具体的には、より有毒なデータに対する事前トレーニングが、後トレーニングのより良い制御につながる可能性を検討し、最終的にモデルの出力毒性を減少させる。
まず,データ構成が表現空間における特徴の幾何学にどのように影響するかを玩具実験で調べる。
次に, クリーンデータと毒性データの比率の異なるOlmo-1Bモデルを用いた制御実験により, 毒性の比が増加するにつれて, 毒性の概念の絡み合いが小さくなることがわかった。
さらに, 有害データがベースモデルの世代毒性を増加させる一方で, 有害性を除去しやすくすることを示した。
ToxigenおよびReal Toxicity Promptsの評価は、予測時間介入(ITI)などの除毒技術を適用する際に、生成毒性の低減と一般能力の維持とのトレードオフを、有毒データに基づいて訓練したモデルにより改善することを示した。
以上の結果から, トレーニング後, 悪いデータが良いモデルに結びつく可能性が示唆された。
関連論文リスト
- PoisonBench: Assessing Large Language Model Vulnerability to Data Poisoning [32.508939142492004]
我々は、好み学習中のデータ中毒に対する大規模言語モデルの感受性を評価するためのベンチマークであるPoisonBenchを紹介する。
データ中毒攻撃は、隠れた悪意のあるコンテンツやバイアスを含むために、大きな言語モデルレスポンスを操作することができる。
8つの現実的なシナリオに2つの異なる攻撃タイプをデプロイし、21の広く使用されているモデルを評価します。
論文 参考訳(メタデータ) (2024-10-11T13:50:50Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity [6.786565820048478]
本稿では,無調音アライメントの代替であるProFSを導入し,毒性低減のユースケースでその効果を実証する。
ProFSはモデルパラメータ空間内の有毒な部分空間を特定し、検出された部分空間を投影することでモデル毒性を低減する。
我々は, ProFS が DPO よりもサンプリング効率が高いことを示し,さらにノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-22T20:08:48Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations [15.152559543181523]
本研究は,サイバーバブル検出における敵行動と増強の効果について,初めて検討したものである。
モデル非依存の語彙置換が性能を著しく損なうことを示す。
毒性に関する先行研究で提案された増強は効果が低いことが証明された。
論文 参考訳(メタデータ) (2022-01-17T12:48:27Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。