論文の概要: Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection
- arxiv url: http://arxiv.org/abs/2201.10474v2
- Date: Wed, 26 Jan 2022 18:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 13:40:14.901443
- Title: Whose Language Counts as High Quality? Measuring Language Ideologies in
Text Data Selection
- Title(参考訳): 誰の言語が高品質か?
テキストデータ選択における言語イデオロギーの測定
- Authors: Suchin Gururangan, Dallas Card, Sarah K. Dreier, Emily K. Gade, Leroy
Z. Wang, Zeyu Wang, Luke Zettlemoyer, Noah A. Smith
- Abstract要約: より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
高品質なコーパスを特権化するには言語イデオロギーが必要です。
- 参考スコア(独自算出の注目度): 83.3580786484122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models increasingly rely on massive web dumps for diverse text data.
However, these sources are rife with undesirable content. As such, resources
like Wikipedia, books, and newswire often serve as anchors for automatically
selecting web text most suitable for language modeling, a process typically
referred to as quality filtering. Using a new dataset of U.S. high school
newspaper articles -- written by students from across the country -- we
investigate whose language is preferred by the quality filter used for GPT-3.
We find that newspapers from larger schools, located in wealthier, educated,
and urban ZIP codes are more likely to be classified as high quality. We then
demonstrate that the filter's measurement of quality is unaligned with other
sensible metrics, such as factuality or literary acclaim. We argue that
privileging any corpus as high quality entails a language ideology, and more
care is needed to construct training corpora for language models, with better
transparency and justification for the inclusion or exclusion of various texts.
- Abstract(参考訳): 言語モデルは、多種多様なテキストデータに対する巨大なウェブダンプに依存している。
しかし、これらの情報源は好ましくない内容に満ちている。
そのため、ウィキペディア、書籍、ニュースワイヤといったリソースは、言語モデリングに最も適したWebテキストを自動的に選択するアンカーとして機能することが多い。
全国の学生が執筆した米国の高校新聞記事の新しいデータセットを用いて、gpt-3で使用される品質フィルターによってどの言語が好まれるかを調査した。
より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。
次に,フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。
高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。
関連論文リスト
- How Good is Your Wikipedia? [13.814955569390207]
本稿では,ウィキペディアのデータ品質を,様々な品質フィルタリング手法を応用して,非英語環境におけるデータ品質を批判的に検証する。
データ品質プルーニングは、パフォーマンスを損なうことなく、リソース効率の高いトレーニングに有効な手段であることがわかった。
論文 参考訳(メタデータ) (2024-11-08T12:35:58Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with
Effective Evaluation Model [40.23569361268597]
ノイズの多いWebデータから中国語のクリーンテキストを抽出するツールチェーンEvalWebを提案する。
我々は,最大かつ最新の高品質な中国語Webテキストである ChineseWebText をリリースし,その内容は1.42TB で,各テキストは品質スコアに関連付けられている。
論文 参考訳(メタデータ) (2023-11-02T11:13:51Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Does Corpus Quality Really Matter for Low-Resource Languages? [27.315905109092466]
非英語コーパスの大部分は、自動的にフィルタされたCommonCrawlから派生している。
ケーススタディとしてBasqueを採用して、CommonCrawlのフィルタに代わるものとして、カスタマイズされたクローリング(高品質なコンテンツでウェブサイトを手動で識別し、スクラップする)について検討する。
我々の新しいコーパスはEusCrawlと呼ばれ、CC100やmC4のような多言語コーパスのバスク部分に似ている。
論文 参考訳(メタデータ) (2022-03-15T17:40:27Z) - Text Style Transfer for Bias Mitigation using Masked Language Modeling [9.350763916068026]
本稿では,テキストデータを自動的にデバイアスするテキストスタイル転送モデルを提案する。
このモデルでは、潜在コンテンツエンコーディングと明示的なキーワード置換を組み合わせることで、そのような問題を解決する。
論文 参考訳(メタデータ) (2022-01-21T11:06:33Z) - Assessing the quality of sources in Wikidata across languages: a hybrid
approach [64.05097584373979]
いくつかの言語でラベルを持つWikidataのトリプルからサンプルした参照コーパスの大規模なコーパスを評価するために,一連のマイクロタスク実験を実施している。
クラウドソースアセスメントの統合されたバージョンを使用して、いくつかの機械学習モデルをトレーニングして、Wikidata全体の分析をスケールアップしています。
この結果はWikidataにおける参照の質の確認に役立ち、ユーザ生成多言語構造化データの品質をWeb上で定義し、取得する際の共通の課題を特定するのに役立ちます。
論文 参考訳(メタデータ) (2021-09-20T10:06:46Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Improving Yor\`ub\'a Diacritic Restoration [3.301896537513352]
ヨルバ語(Yorub'a)は西アフリカで広く話されている言語で、書記体系は正書法や音節の発音に富んでいる。
ダイアクリティカルマークは、デバイスやアプリケーションのサポートの制限や、適切な使用に関する一般的な教育のため、電子テキストから除外されることが多い。
事前訓練されたモデル、データセット、ソースコードはすべて、Yorub'a言語技術への取り組みを進めるためのオープンソースプロジェクトとしてリリースされた。
論文 参考訳(メタデータ) (2020-03-23T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。