Fugu-MT 論文翻訳(概要): Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training

論文の概要: Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training

arxiv url: http://arxiv.org/abs/2412.02857v1
Date: Tue, 03 Dec 2024 21:43:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.469901
Title: Measuring Bias of Web-filtered Text Datasets and Bias Propagation Through Training
Title（参考訳）: Webフィルタリングテキストデータセットのバイアス測定と学習によるバイアス伝播
Authors: Youssef Mansour, Reinhard Heckel,
Abstract要約: 大規模言語モデル(LLM)の事前学習データセットのバイアスについて,データセット分類実験により検討した。 C4, RefinedWeb, DolmaCC, RedPajama-V2, FineWeb, DCLM-Baseline など,CommonCrawl から派生した LLM のオープンソース事前トレーニングデータセットの解析を行った。ニューラルネットワークは、単一のテキストシーケンスが属するデータセットを驚くほどよく分類することができます。
参考スコア（独自算出の注目度）: 22.53813258871828
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate biases in pretraining datasets for large language models (LLMs) through dataset classification experiments. Building on prior work demonstrating the existence of biases in popular computer vision datasets, we analyze popular open-source pretraining datasets for LLMs derived from CommonCrawl including C4, RefinedWeb, DolmaCC, RedPajama-V2, FineWeb, and DCLM-Baseline. Despite those datasets being obtained with similar filtering and deduplication steps, neural networks can classify surprisingly well which dataset a single text sequence belongs to, significantly better than a human can. This indicates that popular pretraining datasets have their own unique biases or fingerprints. Those biases remain even when the text is rewritten with LLMs. Moreover, these biases propagate through training: Random sequences generated by models trained on those datasets can be classified well by a classifier trained on the original datasets.
Abstract（参考訳）: 大規模言語モデル(LLM)の事前学習データセットのバイアスについて,データセット分類実験により検討した。 C4, RefinedWeb, DolmaCC, RedPajama-V2, FineWeb, DCLM-Baseline など,CommonCrawl から派生した LLM のオープンソース事前トレーニングデータセットの解析を行った。同様のフィルタリングと重複処理のステップで得られたデータセットにもかかわらず、ニューラルネットワークは、単一のテキストシーケンスが属するデータセットを驚くほどうまく分類することができる。これは、人気のある事前トレーニングデータセットが独自のバイアスや指紋を持っていることを示している。テキストがLLMで書き直されても、これらのバイアスは残る。これらのデータセットでトレーニングされたモデルによって生成されたランダムシーケンスは、元のデータセットでトレーニングされた分類器によって適切に分類することができます。

関連論文リスト

Low-Perplexity LLM-Generated Sequences and Where To Find Them [0.0]
モデルにより生成された高確率テキストスパンの低パープレクティリティシーケンスの解析を主眼とした体系的アプローチを提案する。私たちのパイプラインは、変性を避けながら、さまざまなトピックにわたる長いシーケンスを確実に抽出し、トレーニングデータのソースまで追跡します。一致した人に対しては、ソース文書間で発生した事象の分布を定量化し、冗長リコールのスコープと性質を強調する。
論文参考訳（メタデータ） (2025-07-02T15:58:51Z)
Zero-shot Meta-learning for Tabular Prediction Tasks with Adversarially Pre-trained Transformer [2.1677183904102257]
本稿では、実世界のデータセットを事前学習することなく、表形式の予測タスクでゼロショットメタ学習を行うことのできるAdversarially Pre-trained Transformer(APT)を提案する。 APTは、異なる合成データセットで意図的にモデルに挑戦する敵対的な合成データエージェントで事前訓練されている。筆者らのフレームワークは,データセットの特徴をフィルタリングすることなく,小さな分類タスクにおける最先端のパフォーマンスと一致していることを示す。
論文参考訳（メタデータ） (2025-02-06T23:58:11Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文参考訳（メタデータ） (2024-02-21T02:45:46Z)
Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文参考訳（メタデータ） (2023-09-29T17:37:29Z)
When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale [12.94829977468838]
大量のテキストデータが大きな言語モデルの開発に大きく貢献している。これまで、データセットを高品質なサブセットまで掘り下げる努力は、ルールベースのフィルタとしてエンコードされた手作りのものに依存してきた。より広い視点で、事前学習データの品質を測定するために使用できる、スケーラブルなデータ品質の推定を探求します。
論文参考訳（メタデータ） (2023-09-08T19:34:05Z)
Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias [92.41919689753051]
大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクのためのトレーニングデータジェネレータとして活用されている。本稿では,多様な属性を持つプロンプトを用いたトレーニングデータ生成について検討する。属性付きプロンプトは、結果のモデルの性能の観点から、単純なクラス条件プロンプトより優れていることを示す。
論文参考訳（メタデータ） (2023-06-28T03:31:31Z)
Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文参考訳（メタデータ） (2022-08-10T18:24:23Z)
Generating Data to Mitigate Spurious Correlations in Natural Language Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文参考訳（メタデータ） (2022-03-24T09:08:05Z)
Learning a Self-Expressive Network for Subspace Clustering [15.096251922264281]
本稿では,データ表現の自己表現を学習するために,適切に設計されたニューラルネットワークを用いた,自己表現型ネットワーク(SENet)と呼ばれる,サブスペースクラスタリングのための新しいフレームワークを提案する。私たちのSENetは、トレーニングデータに望ましい特性を持つ自己表現係数を学習するだけでなく、サンプル外のデータも処理します。特に、SENetはMNIST、Fashion MNIST、Extended MNISTで高い競争力を発揮し、CIFAR-10で最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2021-10-08T18:06:06Z)
Dataset Bias Mitigation Through Analysis of CNN Training Scores [0.0]
本稿では,スコアベース再サンプリング(SBR)と呼ばれる,ドメインに依存しない新しい手法を提案する。そこで本手法では, トレーニングを行った場合, 同一のCNNモデルを用いて, トレーニングサンプルを推定し, 予測値を求め, 予測点と接地点との距離に基づいて, 接地点から遠く離れた標本を同定する。提案手法の有効性を検証し,提案手法の有効性を確認した。
論文参考訳（メタデータ） (2021-06-28T16:07:49Z)
FIND: Human-in-the-Loop Debugging Deep Text Classifiers [55.135620983922564]
隠れた機能を無効にすることで、人間がディープラーニングテキスト分類器をデバッグできるフレームワークであるFINDを提案する。実験により、人間はFINDを使用することで、異なる種類の不完全なデータセットの下で訓練されたCNNテキスト分類器を改善することができる。
論文参考訳（メタデータ） (2020-10-10T12:52:53Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)
DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文参考訳（メタデータ） (2019-12-27T02:05:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。