論文の概要: Exploring Cultural Variations in Moral Judgments with Large Language Models
- arxiv url: http://arxiv.org/abs/2506.12433v1
- Date: Sat, 14 Jun 2025 10:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.195276
- Title: Exploring Cultural Variations in Moral Judgments with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた道徳的判断における文化的変化の探索
- Authors: Hadi Mohammadi, Efthymia Papadopoulou, Yasmeen F. S. S. Meijer, Ayoub Bagheri,
- Abstract要約: 対数確率に基づく道徳的正当性スコアを用いて、各モデルのアウトプットを、幅広い倫理的トピックをカバーする調査データと相関付けする。
以上の結果から, 早期モデルや小型モデルでは, 人的判断とほぼゼロに近い相関や負の相関が生じることが示唆された。
高度な命令調整モデル(GPT-4oやGPT-4o-miniを含む)は、かなり高い正の相関を達成し、現実世界の道徳的態度をよりよく反映している。
- 参考スコア(独自算出の注目度): 0.5356944479760104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong performance across many tasks, but their ability to capture culturally diverse moral values remains unclear. In this paper, we examine whether LLMs can mirror variations in moral attitudes reported by two major cross-cultural surveys: the World Values Survey and the PEW Research Center's Global Attitudes Survey. We compare smaller, monolingual, and multilingual models (GPT-2, OPT, BLOOMZ, and Qwen) with more recent instruction-tuned models (GPT-4o, GPT-4o-mini, Gemma-2-9b-it, and Llama-3.3-70B-Instruct). Using log-probability-based moral justifiability scores, we correlate each model's outputs with survey data covering a broad set of ethical topics. Our results show that many earlier or smaller models often produce near-zero or negative correlations with human judgments. In contrast, advanced instruction-tuned models (including GPT-4o and GPT-4o-mini) achieve substantially higher positive correlations, suggesting they better reflect real-world moral attitudes. While scaling up model size and using instruction tuning can improve alignment with cross-cultural moral norms, challenges remain for certain topics and regions. We discuss these findings in relation to bias analysis, training data diversity, and strategies for improving the cultural sensitivity of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くのタスクにおいて高いパフォーマンスを示してきたが、文化的に多様な道徳的価値を捉える能力はいまだに不明である。
本稿では,世界価値調査とPEW研究センターのグローバルアテンション調査という2つの主要な文化横断調査によって報告された道徳的態度の変化をLLMが反映できるかどうかを検討する。
より新しい命令調整モデル(GPT-4o, GPT-4o-mini, Gemma-2-9b-it, Llama-3.3-70B-Instruct)と比較した。
対数確率に基づく道徳的正当性スコアを用いて、各モデルのアウトプットを、幅広い倫理的トピックをカバーする調査データと相関付けする。
以上の結果から, 早期モデルや小型モデルでは, 人的判断とほぼゼロに近い相関や負の相関が生じることが示唆された。
対照的に、高度な命令調整モデル(GPT-4oとGPT-4o-miniを含む)は、かなり高い正の相関を達成し、現実世界の道徳的態度を反映している。
モデルサイズをスケールアップし、命令チューニングを使用することで、異文化間の道徳規範との整合性を改善することができるが、特定のトピックや領域に対する課題は残る。
これらの知見は, LLMの文化的感受性を高めるためのバイアス分析, トレーニングデータ多様性, および戦略に関連して論じる。
関連論文リスト
- Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - Whose Morality Do They Speak? Unraveling Cultural Bias in Multilingual Language Models [0.0]
大規模言語モデル(LLM)は様々な分野において重要なツールとなっているが、その道徳的推論能力はいまだに未熟である。
本研究は, GPT-3.5-Turbo などの多言語 LLM が文化的に特定の道徳的価値観を反映しているか,それとも支配的な道徳的規範を強制するかを検討する。
8つの言語でMFQ-2(Moral Foundations Questionnaire)を改訂し、モデルが6つのコアモラル基礎に忠実であることを分析する。
論文 参考訳(メタデータ) (2024-12-25T10:17:15Z) - LLMs as mirrors of societal moral standards: reflection of cultural divergence and agreement across ethical topics [0.5852077003870417]
大規模言語モデル(LLM)は、そのパフォーマンス能力の最近の進歩により、様々な領域においてますます重要になっている。
本研究は,LLMが道徳的視点において,異文化間の差異や類似性を正確に反映しているかどうかを考察する。
論文 参考訳(メタデータ) (2024-12-01T20:39:42Z) - Large Language Models as Mirrors of Societal Moral Standards [0.5852077003870417]
言語モデルは、限られた範囲において、様々な文化的文脈において道徳的規範を表現することができる。
本研究は,40か国以上の道徳的視点を包含するWVSとPEWという2つの調査から得られた情報を用いて,これらのモデルの有効性を評価する。
その結果、偏見は単言語モデルと多言語モデルの両方に存在することが示され、それらは通常、多様な文化の道徳的複雑さを正確に捉えるには不十分である。
論文 参考訳(メタデータ) (2024-12-01T20:20:35Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。