論文の概要: On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena
- arxiv url: http://arxiv.org/abs/2501.04662v1
- Date: Wed, 08 Jan 2025 18:15:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 16:10:19.705123
- Title: On The Origin of Cultural Biases in Language Models: From Pre-training Data to Linguistic Phenomena
- Title(参考訳): 言語モデルにおける文化的バイアスの起源:事前学習データから言語現象へ
- Authors: Tarek Naous, Wei Xu,
- Abstract要約: 本稿では,言語モデル(LM)におけるエンティティ関連文化バイアスの起源を明らかにすることを目的とする。
アラビア文化や西洋文化に関連する58,086のエンティティと367の自然文脈をマスキングしたエンティティのアラビア・英語の並列ベンチマークであるCAMeL-2を紹介する。
CAMeL-2を用いた評価では、アラビア語と比較して英語で試験すると、LMによる文化間のパフォーマンスギャップが減少することがわかった。
- 参考スコア(独自算出の注目度): 10.263201685476492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) have been shown to exhibit a strong preference towards entities associated with Western culture when operating in non-Western languages. In this paper, we aim to uncover the origins of entity-related cultural biases in LMs by analyzing several contributing factors, including the representation of entities in pre-training data and the impact of variations in linguistic phenomena across languages. We introduce CAMeL-2, a parallel Arabic-English benchmark of 58,086 entities associated with Arab and Western cultures and 367 masked natural contexts for entities. Our evaluations using CAMeL-2 reveal reduced performance gaps between cultures by LMs when tested in English compared to Arabic. We find that LMs struggle in Arabic with entities that appear at high frequencies in pre-training, where entities can hold multiple word senses. This also extends to entities that exhibit high lexical overlap with languages that are not Arabic but use the Arabic script. Further, we show how frequency-based tokenization leads to this issue in LMs, which gets worse with larger Arabic vocabularies. We will make CAMeL-2 available at: https://github.com/tareknaous/camel2
- Abstract(参考訳): 言語モデル(LM)は、西洋以外の言語で運用する場合、西洋文化に関連するエンティティに対して強い好意を示すことが示されている。
本稿では、事前学習データにおけるエンティティの表現や言語現象の変化の影響など、いくつかの要因を分析して、LMにおけるエンティティ関連文化的バイアスの起源を明らかにすることを目的とする。
アラビア文化や西洋文化に関連する58,086のエンティティと367の自然文脈をマスキングしたエンティティのパラレルアラビア語によるベンチマークであるCAMeL-2を紹介する。
CAMeL-2を用いた評価では、アラビア語と比較して英語で試験すると、LMによる文化間のパフォーマンスギャップが減少することがわかった。
我々は,複数の単語感覚を保持できる事前学習において,高い頻度で出現するエンティティと,LMがアラビア語で苦労していることを見出した。
これはまた、アラビア語ではなくアラビア語の文字を使用する言語と高い語彙の重なりを示す存在にまで拡張される。
さらに、周波数ベースのトークン化が、より大きなアラビア語の語彙によって悪化するLMのこの問題にどのように結びつくかを示す。
CAMeL-2 を https://github.com/tareknaous/camel2 で利用可能にします。
関連論文リスト
- CARE: Aligning Language Models for Regional Cultural Awareness [28.676469530858924]
既存の言語モデル(LM)はしばしば西洋中心のバイアスを示し、多様な文化的知識を表現するのに苦労する。
これに対処する以前の試みは、合成データに頼り、文化的な知識を英語でのみ表現するものだった。
まず、中国文化とアラブ文化に関する2,580の質問に対して、人選好による24.1k応答の多言語リソースであるCAREを紹介した。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking [12.078532717928185]
大型言語モデル(LLM)は、西洋文化、アングロ・セントリック文化、アメリカ文化への偏見を示し続けている。
我々は、アラビア語の証明を理解し解釈するLLMの能力を評価するために設計されたベンチマークであるJawaherを紹介する。
LLMは慣用的に正確な翻訳を生成できるが、文化的にニュアンスで文脈的に関係のある説明を生み出すのに苦労している。
論文 参考訳(メタデータ) (2025-02-28T22:28:00Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - AraDiCE: Benchmarks for Dialectal and Cultural Capabilities in LLMs [22.121471902726892]
本稿ではアラビア方言と文化評価のベンチマークであるAraDiCEを紹介する。
湾岸地域、エジプト地域、レバント地域の文化意識を評価するために設計された最初のきめ細かいベンチマーク。
論文 参考訳(メタデータ) (2024-09-17T17:59:25Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。