論文の概要: Is It Bad to Work All the Time? Cross-Cultural Evaluation of Social Norm Biases in GPT-4
- arxiv url: http://arxiv.org/abs/2505.18322v1
- Date: Fri, 23 May 2025 19:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.339642
- Title: Is It Bad to Work All the Time? Cross-Cultural Evaluation of Social Norm Biases in GPT-4
- Title(参考訳): 常に働くのは悪いことか? GPT-4における社会的ノルムバイアスのクロスカルチャー評価
- Authors: Zhuozhuo Joy Liu, Farhan Samir, Mehar Bhatia, Laura K. Nelson, Vered Shwartz,
- Abstract要約: GPT-4は必ずしも正しくないが、文化に特有な基準を生じる傾向にある。
ステレオタイプを過度に生成することを避けるが、特定の文化のステレオタイプ表現はモデルで抑制されるのではなく単に隠されているだけである。
- 参考スコア(独自算出の注目度): 10.665717152882312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have been demonstrated to align with the values of Western or North American cultures. Prior work predominantly showed this effect through leveraging surveys that directly ask (originally people and now also LLMs) about their values. However, it is hard to believe that LLMs would consistently apply those values in real-world scenarios. To address that, we take a bottom-up approach, asking LLMs to reason about cultural norms in narratives from different cultures. We find that GPT-4 tends to generate norms that, while not necessarily incorrect, are significantly less culture-specific. In addition, while it avoids overtly generating stereotypes, the stereotypical representations of certain cultures are merely hidden rather than suppressed in the model, and such stereotypes can be easily recovered. Addressing these challenges is a crucial step towards developing LLMs that fairly serve their diverse user base.
- Abstract(参考訳): LLMは、西洋文化や北米文化の価値観と一致することが示されている。
以前の研究は、その価値を直接(元々は人々、そして現在ではLLMも)問う調査を活用することで、この効果を主に示していました。
しかし、LLMがこれらの値を現実のシナリオで一貫して適用することは信じ難い。
そのために、私たちはボトムアップアプローチを採用し、異なる文化の物語における文化的規範についてLLMに推論するよう求めます。
GPT-4は必ずしも正しくないが、文化に特有な基準を生じる傾向にある。
さらに、過度にステレオタイプを生成することは避けるが、特定の文化のステレオタイプ表現はモデルで抑制されるのではなく単に隠されているだけであり、そのようなステレオタイプを簡単に回収することができる。
これらの課題に対処することは、彼らの多様なユーザー基盤にかなり役立つLSMを開発するための重要なステップである。
関連論文リスト
- From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - An Evaluation of Cultural Value Alignment in LLM [27.437888319382893]
20カ国の文化と言語を10のLLMで評価し,LLM文化の大規模評価を行った。
以上の結果から,全てのモデルにまたがるアウトプットは中程度の文化的中核となることが示唆された。
より深い調査は、モデルの起源、プロンプト言語、および価値次元が文化的なアウトプットに与える影響に光を当てている。
論文 参考訳(メタデータ) (2025-04-11T09:13:19Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデル(LLM)は、ユーザ価値や文化にアウトプットを適応させる必要があります。
LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
我々はNormAd-Etiを作成した。これは、75か国における、社会的な倫理的関連文化規範を表す2.6kの状況記述のベンチマークである。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。