論文の概要: Having Beer after Prayer? Measuring Cultural Bias in Large Language
Models
- arxiv url: http://arxiv.org/abs/2305.14456v2
- Date: Thu, 16 Nov 2023 04:46:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 18:46:51.022460
- Title: Having Beer after Prayer? Measuring Cultural Bias in Large Language
Models
- Title(参考訳): 祈りの後にビールを飲んでる?
大規模言語モデルにおける文化バイアスの測定
- Authors: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
- Abstract要約: 多言語とアラビア語のモノリンガル言語モデルは、アラビア語で促されたり、アラブ文化の設定によって文脈化されたりしても、西洋文化にデフォルトであることを示す。
この西洋の偏見を測定するために、自然発生のアラビアのプロンプトのデータセットであるCAMeLを導入し、アラブ文化や西洋文化に対応する20,504の文化的対象を広範囲にリストした。
- 参考スコア(独自算出の注目度): 28.09972358912354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is important that language models appropriately adapt to specific cultural
contexts. However, as we show in this paper, multilingual and Arabic
monolingual language models default to Western culture even when prompted in
Arabic and contextualized by an Arab cultural setting. To measure this Western
bias, we introduce CAMeL, a dataset of naturally occurring Arabic prompts
spanning eight diverse cultural aspects and an extensive list of 20,504
cultural targets corresponding to Arab or Western culture. Using CAMeL, we show
that models favor Western targets and demonstrate cultural unfairness on
downstream tasks such as named entity recognition and sentiment analysis. Our
analyses of pretraining corpora also reveal that commonly used sources such as
Wikipedia may not be suited to build culturally aware models, underscoring the
importance of carefully curating pretraining data in constructing language
models to serve a global population.
- Abstract(参考訳): 言語モデルは特定の文化的文脈に適切に適応することが重要である。
しかし、本論文で示すように、多言語とアラビア語の単言語モデルは、アラブ文化によって文脈化され、アラビア語で促された場合でも、西洋文化にデフォルトされている。
この西洋の偏見を測定するために、自然発生のアラビアのプロンプトのデータセットであるCAMeLを導入し、アラブ文化や西洋文化に対応する20,504の文化的対象を広範囲にリストした。
ラクダを用いて,モデルが西洋の目標を優先し,名前付きエンティティ認識や感情分析などの下流課題における文化的不公平性を示すことを示す。
プレトレーニングコーパスの分析により、ウィキペディアのような一般的なソースは文化的に認識されたモデルを構築するのに適さない可能性があり、世界人口に奉仕するために言語モデルを構築する際に、事前トレーニングデータを注意深くキュレートすることの重要性も明らかになった。
関連論文リスト
- CamelEval: Advancing Culturally Aligned Arabic Language Models and Benchmarks [19.403924294587043]
本稿では、アラビア語話者の価値観や好みに合わせて特別に設計されたアラビア語と英語のバイリンガルなLLMであるJuhainaを紹介する。
私たちのモデルは924億のパラメータを含み、最大8,192トークンのコンテキストウィンドウでトレーニングされています。
論文 参考訳(メタデータ) (2024-09-19T09:52:35Z) - See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Investigating Cultural Alignment of Large Language Models [10.738300803676655]
LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
論文 参考訳(メタデータ) (2024-02-20T18:47:28Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。