論文の概要: NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.12464v6
- Date: Sat, 19 Oct 2024 05:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:44.945252
- Title: NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models
- Title(参考訳): NormAd: 大規模言語モデルの文化的適応性を測定するフレームワーク
- Authors: Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap,
- Abstract要約: 大規模言語モデルの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
また,NormAd-Etiは,文化的規範の異なるレベルにおいて,社会的受容性を評価するモデルの能力を測定した。
我々は、モデルが社会的に受け入れられない状況と受け入れられない状況を認識するのに優れていることを発見した。
- 参考スコア(独自算出の注目度): 26.64843536942309
- License:
- Abstract: To be effectively and safely deployed to global user populations, large language models (LLMs) must adapt outputs to user values and culture, not just know about them. We introduce NormAd, an evaluation framework to assess LLMs' cultural adaptability, specifically measuring their ability to judge social acceptability across different levels of cultural norm specificity, from abstract values to explicit social norms. As an instantiation of our framework, we create NormAd-Eti, a benchmark of 2.6k situational descriptions representing social-etiquette related cultural norms from 75 countries. Through comprehensive experiments on NormAd-Eti, we find that LLMs struggle to accurately judge social acceptability across these varying degrees of cultural contexts and show stronger adaptability to English-centric cultures over those from the Global South. Even in the simplest setting where the relevant social norms are provided, our best models' performance (<82%) lags behind humans (>95%). In settings with abstract values and country information, model performance drops substantially (<60%), while human accuracy remains high (>90%). Furthermore, we find that models are better at recognizing socially acceptable versus unacceptable situations. Our findings showcase the current pitfalls in socio-cultural reasoning of LLMs which hinder their adaptability for global audiences.
- Abstract(参考訳): グローバルなユーザ人口に効果的かつ安全にデプロイするには、大きな言語モデル(LLM)がユーザの価値や文化に適応しなければなりません。
我々は,LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介した。
我が国の枠組みの即時化として,75カ国の社会的嗜好関連文化規範を表す2.6kの状況記述のベンチマークであるNormAd-Etiを作成した。
NormAd-Etiの総合的な実験を通して、LLMはこれらの異なる文化の文脈における社会的受容性を正確に判断し、グローバル・サウスの文化よりも英語中心の文化に適応性を示すのに苦労していることがわかった。
関連社会規範が提供される最も単純な環境では、最高のモデルのパフォーマンス(82%)が人間に遅れている(95%)。
抽象値や国情報の設定では、モデルの性能は大幅に低下する(<60%)が、人間の精度は高い(>90%)。
さらに、モデルが社会的に受け入れられない状況と受け入れられない状況の認識に優れていることが判明した。
本研究は,LLMの社会文化的推論における落とし穴が,グローバルなオーディエンスへの適応を妨げていることを示すものである。
関連論文リスト
- Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,この課題に対する様々なモデルをベンチマークする評価フレームワークを作成する。
文化的バイアスやステレオタイプを含む自動適応の可能性について分析する。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [68.37589899302161]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。