論文の概要: AboutMe: Using Self-Descriptions in Webpages to Document the Effects of
English Pretraining Data Filters
- arxiv url: http://arxiv.org/abs/2401.06408v2
- Date: Tue, 16 Jan 2024 19:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 19:11:41.687833
- Title: AboutMe: Using Self-Descriptions in Webpages to Document the Effects of
English Pretraining Data Filters
- Title(参考訳): AboutMe: ウェブページにおける自己記述を用いた英語事前学習データフィルタの効果の文書化
- Authors: Li Lucy, Suchin Gururangan, Luca Soldaini, Emma Strubell, David
Bamman, Lauren Klein, Jesse Dodge
- Abstract要約: 我々は、一般的な事前学習データソースであるWebテキストを、その社会的・地理的文脈に置きます。
我々は,10の「品質」と英語の識別(langID)フィルターが,これらの社会的次元に沿って変化するWebページに与える影響について,最初の研究を行った。
- 参考スコア(独自算出の注目度): 41.301746967045574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models' (LLMs) abilities are drawn from their pretraining
data, and model development begins with data curation. However, decisions
around what data is retained or removed during this initial stage is
under-scrutinized. In our work, we ground web text, which is a popular
pretraining data source, to its social and geographic contexts. We create a new
dataset of 10.3 million self-descriptions of website creators, and extract
information about who they are and where they are from: their topical
interests, social roles, and geographic affiliations. Then, we conduct the
first study investigating how ten "quality" and English language identification
(langID) filters affect webpages that vary along these social dimensions. Our
experiments illuminate a range of implicit preferences in data curation: we
show that some quality classifiers act like topical domain filters, and langID
can overlook English content from some regions of the world. Overall, we hope
that our work will encourage a new line of research on pretraining data
curation practices and its social implications.
- Abstract(参考訳): 大規模言語モデルの能力(llm)は、事前学習データから引き出され、モデル開発はデータのキュレーションから始まる。
しかしながら、この初期段階で保持または削除されるデータに関する決定は、過小評価されている。
本研究では,Web テキストを,その社会的・地理的文脈に関連づけた事前学習データソースとして普及させた。
我々は、ウェブサイト作成者の1030万の自己記述からなる新しいデータセットを作成し、それらが誰であるか、どこから来たのかに関する情報を抽出する。
次に,10個の「品質」および「言語識別」(langID)フィルタが,これらの社会的次元に沿って変化するWebページに与える影響について,最初の研究を行った。
データキュレーションにおける暗黙的な選好を照らし出す実験では、いくつかの品質分類器がトピックのドメインフィルタのように振る舞うことを示し、langIDは世界の一部の地域の英語コンテンツを見渡すことができる。
全体として、我々の研究は、データキュレーションの実践の事前訓練とその社会的意味に関する新しい研究を奨励することを願っている。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - OPSD: an Offensive Persian Social media Dataset and its baseline evaluations [2.356562319390226]
本稿ではペルシャ語に対する2つの攻撃的データセットを紹介する。
第1のデータセットはドメインの専門家によって提供されるアノテーションで構成されており、第2のデータセットはWebクローリングによって得られたラベルなしデータの大規模なコレクションで構成されている。
得られたデータセットの3クラスと2クラスのF1スコアはそれぞれ76.9%、XLM-RoBERTaは89.9%であった。
論文 参考訳(メタデータ) (2024-04-08T14:08:56Z) - RuBia: A Russian Language Bias Detection Dataset [3.8501658629243076]
本稿では,RuBiaと呼ばれるロシア語に特化して設計されたバイアス検出データセットを提案する。
RuBiaデータセットは、性別、国籍、社会経済的地位、多様性の4つの領域に分けられる。
ルビアには、19の国に2000近いユニークな文が散在している。
論文 参考訳(メタデータ) (2024-03-26T10:01:01Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。