論文の概要: Data Caricatures: On the Representation of African American Language in Pretraining Corpora
- arxiv url: http://arxiv.org/abs/2503.10789v1
- Date: Thu, 13 Mar 2025 18:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:02.890528
- Title: Data Caricatures: On the Representation of African American Language in Pretraining Corpora
- Title(参考訳): データカリキュア:コーパスの事前学習におけるアフリカ系アメリカ人の表現について
- Authors: Nicholas Deas, Blake Vente, Amith Ananthram, Jessica A. Grieser, Desmond Patton, Shana Kleiner, James Shepard, Kathleen McKeown,
- Abstract要約: 我々は、主に英語、オープンソースの事前学習コーパスにおけるアフリカ系アメリカ人表現の量と質を評価する。
AALは、アメリカの人口統計学と比較して、すべての評価済み事前学習コーパスで不足しており、0.007%の文書で構成されている。
- 参考スコア(独自算出の注目度): 8.238934128943123
- License:
- Abstract: With a combination of quantitative experiments, human judgments, and qualitative analyses, we evaluate the quantity and quality of African American Language (AAL) representation in 12 predominantly English, open-source pretraining corpora. We specifically focus on the sources, variation, and naturalness of included AAL texts representing the AAL-speaking community. We find that AAL is underrepresented in all evaluated pretraining corpora compared to US demographics, constituting as little as 0.007% of documents. We also find that more than 25% of AAL texts in C4 may be inappropriate for LLMs to generate and reinforce harmful stereotypes. Finally, we find that most automated language, toxicity, and quality filters are more likely to conserve White Mainstream English (WME) texts over AAL in pretraining corpora.
- Abstract(参考訳): 定量的な実験,人的判断,質的分析を組み合わせることで,12の英語,オープンソース事前学習コーパスにおけるアフリカ系アメリカ人(AAL)表現の量と質を評価する。
我々は特に、AAL話者コミュニティを表すAALを含むテキストのソース、バリエーション、自然性に焦点を当てる。
AALは、アメリカの人口統計学と比較して、すべての評価済み事前学習コーパスで不足しており、0.007%の文書で構成されている。
また, C4 の AAL テキストの25% 以上は LLM が有害なステレオタイプを生成・強化するのに不適切である可能性が示唆された。
最後に、ほとんどの自動言語、毒性、品質フィルタは、コーパスの事前訓練において、AAL上のWhite Mainstream English (WME)テキストを保存する傾向にある。
関連論文リスト
- Rejected Dialects: Biases Against African American Language in Reward Models [15.888517781590398]
報酬モデルにおける方言バイアスを評価するための枠組みを導入する。
我々は、WME(White Mainstream English)と機械翻訳と人書きAALコーパスのペアで、報酬モデルの好みと振舞いを比較する実験を行った。
我々は、報酬モデルがAALテキストとWMEテキストの処理において人間の好みと一致しないことを示す。
論文 参考訳(メタデータ) (2025-02-18T13:45:42Z) - Investigating the Impact of Language-Adaptive Fine-Tuning on Sentiment Analysis in Hausa Language Using AfriBERTa [2.5055584842618175]
感情分析(SA)は、自然言語処理(NLP)において、テキストで表される感情を識別することで重要な役割を担っている。
本研究では, 言語適応ファインチューニング(LAFT)の有効性について検討した。
論文 参考訳(メタデータ) (2025-01-19T11:52:46Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Do Language Models Care About Text Quality? Evaluating Web-Crawled
Corpora Across 11 Languages [11.512925610019474]
我々は、最も関連性の高いWebクローラコーパスのうち4つを、11の低リソースのヨーロッパ言語で比較した。
コーパスの品質には明らかな違いがみられ,MaCoCuとOSCARが最適結果を得た。
我々は,本実験において,Webcrawled corporaの品質は,LMのトレーニングにおいて重要な役割を果たさないと結論づけた。
論文 参考訳(メタデータ) (2024-03-13T16:56:33Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Evaluation of African American Language Bias in Natural Language
Generation [9.823804049740916]
ホワイト・メインストリーム・イングリッシュ(WME)と比較して,LLMがアフリカ系アメリカ人言語(AAL)をいかに理解しているかを評価する。
提案するコントリビューションには,(1)2つの言語生成タスクにおける6つの事前訓練された大規模言語モデルの評価,(2)WMEにおける人間アノテーションによる複数の文脈からのAALテキストの新たなデータセット,(3)AAL特徴の理解の欠如に関するバイアスと傾向の同定を示唆するモデルパフォーマンスギャップの文書化などが含まれる。
論文 参考訳(メタデータ) (2023-05-23T17:34:37Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。