論文の概要: Should LLMs be WEIRD? Exploring WEIRDness and Human Rights in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.19269v1
- Date: Fri, 22 Aug 2025 08:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.329419
- Title: Should LLMs be WEIRD? Exploring WEIRDness and Human Rights in Large Language Models
- Title(参考訳): LLM は WEIRD にすべきか? 大規模言語モデルにおける WEIRDness と人権を探る
- Authors: Ke Zhou, Marios Constantinides, Daniele Quercia,
- Abstract要約: 広範に使われている5つの大言語モデル(LLM)を評価した。
我々は、これらの反応がWEIRD諸国の価値観とどの程度密接に一致しているか、人権原則と矛盾しているかを測定した。
BLOOMやQwenのようなWEIRD値に対するアライメントが低いモデルは、文化的に異なる応答を産み出すが、人権に反する出力を2%から4%も生成する可能性が高かった。
- 参考スコア(独自算出の注目度): 14.244224614463024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are often trained on data that reflect WEIRD values: Western, Educated, Industrialized, Rich, and Democratic. This raises concerns about cultural bias and fairness. Using responses to the World Values Survey, we evaluated five widely used LLMs: GPT-3.5, GPT-4, Llama-3, BLOOM, and Qwen. We measured how closely these responses aligned with the values of the WEIRD countries and whether they conflicted with human rights principles. To reflect global diversity, we compared the results with the Universal Declaration of Human Rights and three regional charters from Asia, the Middle East, and Africa. Models with lower alignment to WEIRD values, such as BLOOM and Qwen, produced more culturally varied responses but were 2% to 4% more likely to generate outputs that violated human rights, especially regarding gender and equality. For example, some models agreed with the statements ``a man who cannot father children is not a real man'' and ``a husband should always know where his wife is'', reflecting harmful gender norms. These findings suggest that as cultural representation in LLMs increases, so does the risk of reproducing discriminatory beliefs. Approaches such as Constitutional AI, which could embed human rights principles into model behavior, may only partly help resolve this tension.
- Abstract(参考訳): 大規模言語モデル(LLM)は、西欧、教育、工業化、富、民主といったWEIRDの価値観を反映したデータに基づいて訓練されることが多い。
これは文化的な偏見と公平性への懸念を引き起こす。
GPT-3.5, GPT-4, Llama-3, BLOOM, Qwenの5種類のLLMについて検討した。
我々は、これらの反応がWEIRD諸国の価値観とどの程度密接に一致しているか、人権原則と矛盾しているかを測定した。
グローバルな多様性を反映して、世界人権宣言とアジア、中東、アフリカからの3つの地域憲章を比較した。
BLOOMやQwenのようなWEIRD値との整合性が低いモデルは、より文化的に多様な反応を生んだが、2%から4%の確率で、特に性別や平等に関して人権を侵害するアウトプットを生成した。
例えば、あるモデルでは「父親の子供は本当の男ではない」「夫は妻がどこにいるかを常に知るべきだ」という文言に同意し、有害な性規範を反映している。
これらの結果は, LLMにおける文化的表現が増加するにつれ, 差別的信念を再現するリスクも高まることを示唆している。
人権原則をモデル行動に組み込むことのできる、コンスティチューショナルAIのようなアプローチは、この緊張を解決するのに役立ちます。
関連論文リスト
- Do Large Language Models Understand Morality Across Cultures? [0.5356944479760104]
本研究では,大規模言語モデルが道徳的視点における異文化間差異や類似性をどの程度捉えているかを検討する。
以上の結果から,現在のLLMは多文化的モラル変動の完全なスペクトルを再現できないことが示唆された。
これらの知見は, LLMのバイアス軽減と文化的代表性向上に向けた, より堅牢なアプローチの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-28T20:25:36Z) - Is It Bad to Work All the Time? Cross-Cultural Evaluation of Social Norm Biases in GPT-4 [10.665717152882312]
GPT-4は必ずしも正しくないが、文化に特有な基準を生じる傾向にある。
ステレオタイプを過度に生成することを避けるが、特定の文化のステレオタイプ表現はモデルで抑制されるのではなく単に隠されているだけである。
論文 参考訳(メタデータ) (2025-05-23T19:28:00Z) - Do LLMs exhibit demographic parity in responses to queries about Human Rights? [4.186018120368565]
ヘッジ(hedging)と非確認(non-affirmation)とは、曖昧さや特定の言明に対する明確な支持の欠如を表す行動である。
我々は、異なる国家または社会的アイデンティティの文脈において、人権に関する新しいプロンプトを設計する。
ヘッジや非確認行動をキャプチャするためのメトリクスを開発します。
すべてのモデルが、異なるアイデンティティグループ間での人権をどう評価するかという点において、人口統計学上の相違があることがわかった。
論文 参考訳(メタデータ) (2025-02-26T15:19:35Z) - LLMs as mirrors of societal moral standards: reflection of cultural divergence and agreement across ethical topics [0.5852077003870417]
大規模言語モデル(LLM)は、そのパフォーマンス能力の最近の進歩により、様々な領域においてますます重要になっている。
本研究は,LLMが道徳的視点において,異文化間の差異や類似性を正確に反映しているかどうかを考察する。
論文 参考訳(メタデータ) (2024-12-01T20:39:42Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Large Language Models are Geographically Biased [47.88767211956144]
我々は、地理のレンズを通して、我々の住む世界について、Large Language Models (LLM)が何を知っているかを研究する。
我々は,地理空間予測において,システム的誤りと定義する,様々な問題的地理的バイアスを示す。
論文 参考訳(メタデータ) (2024-02-05T02:32:09Z) - Assessing LLMs for Moral Value Pluralism [2.860608352191896]
我々は、認識値共鳴(RVR)NLPモデルを用いて、与えられたテキストの文節に共鳴し矛盾する世界価値調査(WVS)値を特定する。
LLMはいくつかの西洋中心の値バイアスを示す。
以上の結果から,社会科学に情報提供された技術ソリューションの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2023-12-08T16:18:15Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。