論文の概要: Investigating Cultural Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13231v1
- Date: Tue, 20 Feb 2024 18:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 13:38:14.338847
- Title: Investigating Cultural Alignment of Large Language Models
- Title(参考訳): 大規模言語モデルの文化的アライメントの検討
- Authors: Badr AlKhamissi, Muhammad ElNokrashy, Mai AlKhamissi, Mona Diab
- Abstract要約: LLM(Large Language Models)は,異なる文化で採用されている多様な知識を真にカプセル化していることを示す。
社会学的調査をシミュレートし、実際の調査参加者のモデル応答を参考として、文化的アライメントの定量化を行う。
本稿では,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
- 参考スコア(独自算出の注目度): 11.730822193746826
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The intricate relationship between language and culture has long been a
subject of exploration within the realm of linguistic anthropology. Large
Language Models (LLMs), promoted as repositories of collective human knowledge,
raise a pivotal question: do these models genuinely encapsulate the diverse
knowledge adopted by different cultures? Our study reveals that these models
demonstrate greater cultural alignment along two dimensions -- firstly, when
prompted with the dominant language of a specific culture, and secondly, when
pretrained with a refined mixture of languages employed by that culture. We
quantify cultural alignment by simulating sociological surveys, comparing model
responses to those of actual survey participants as references. Specifically,
we replicate a survey conducted in various regions of Egypt and the United
States through prompting LLMs with different pretraining data mixtures in both
Arabic and English with the personas of the real respondents and the survey
questions. Further analysis reveals that misalignment becomes more pronounced
for underrepresented personas and for culturally sensitive topics, such as
those probing social values. Finally, we introduce Anthropological Prompting, a
novel method leveraging anthropological reasoning to enhance cultural
alignment. Our study emphasizes the necessity for a more balanced multilingual
pretraining dataset to better represent the diversity of human experience and
the plurality of different cultures with many implications on the topic of
cross-lingual transfer.
- Abstract(参考訳): 言語と文化の複雑な関係は、長い間言語人類学の領域における探索の対象であった。
これらのモデルは、異なる文化によって採用された多様な知識を真にカプセル化するのでしょうか?
第一に、特定の文化の支配的な言語によって促されるとき、第二に、その文化が採用する洗練された言語を前もって訓練する場合である。
社会学的調査をシミュレートし,実際の調査参加者のモデル応答を参考にすることで,文化的アライメントを定量化する。
具体的には,エジプトと米国の各地域で実施した調査を再現し,アラビア語と英語の両方の異なるトレーニングデータ混合と実際の回答者のペルソナと調査質問をllmに促すことで再現した。
さらに分析した結果,社会的価値を追求する人格や文化的にセンシティブなトピックに対して,不一致がより顕著になることが明らかとなった。
最後に,人類学的推論を活用し,文化的アライメントを高める新しい手法である人類学的プロンプティングを紹介する。
本研究は、多言語事前学習データセットの必要性を強調し、多言語間移動のトピックに多くの意味を持つ、人間の経験と複数の異なる文化の多様性をよりよく表す。
関連論文リスト
- Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - SeaEval for Multilingual Foundation Models: From Cross-Lingual Alignment
to Cultural Reasoning [46.77313884422073]
SeaEvalは多言語基盤モデルのベンチマークである。
これらのモデルがどのように理解し、自然言語で推論するかを特徴付ける。
また、文化の実践やニュアンス、価値観をいかに理解したかについても検討する。
論文 参考訳(メタデータ) (2023-09-09T11:42:22Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Comparing Biases and the Impact of Multilingual Training across Multiple
Languages [70.84047257764405]
ダウンストリーム感情分析タスクにおいて,イタリア語,中国語,英語,ヘブライ語,スペイン語のバイアス分析を行う。
我々は、既存の感情バイアスのテンプレートを、人種、宗教、国籍、性別の4つの属性で、イタリア語、中国語、ヘブライ語、スペイン語に適応させる。
以上の結果から,各言語の文化に支配的な集団の嗜好など,バイアス表現の類似性を明らかにした。
論文 参考訳(メタデータ) (2023-05-18T18:15:07Z) - Assessing Cross-Cultural Alignment between ChatGPT and Human Societies:
An Empirical Study [9.919972416590124]
ChatGPTは、対話で人間のような反応を生成できるという異常な能力で広く認知されている。
そこで我々は,ChatGPTの文化的背景を,人間の文化的差異を定量化するための質問に対する応答の分析によって検討した。
論文 参考訳(メタデータ) (2023-03-30T15:43:39Z) - Probing Pre-Trained Language Models for Cross-Cultural Differences in
Values [42.45033681054207]
我々は、事前学習言語モデルにどの文化にわたってどの価値が埋め込まれているかを調査するためにプローブを導入する。
PTLMは文化全体における価値の差異を捉えているが、確立した価値調査と弱く一致しているだけである。
論文 参考訳(メタデータ) (2022-03-25T15:45:49Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - Deception detection in text and its relation to the cultural dimension
of individualism/collectivism [6.17866386107486]
本研究は,文化における特定の言語的特徴の活用の相違が,個性主義/選択主義の分断に関して,規範に起因しているかどうかを考察する。
我々は、音韻学、形態学、構文に基づく幅広いn-gram特徴を実験することにより、カルチャー/言語対応分類器を作成する。
我々は6カ国(米国、ベルギー、インド、ロシア、メキシコ、ルーマニア)の5言語(英語、オランダ、ロシア、スペイン、ルーマニア)から11のデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-05-26T13:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。