論文の概要: NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.12464v4
- Date: Thu, 6 Jun 2024 16:02:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:42:53.438628
- Title: NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models
- Title(参考訳): NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク
- Authors: Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap,
- Abstract要約: 我々は75カ国の社会的・文化的規範を表す新しい物語のデータセットであるNormAdを紹介した。
我々は,大規模言語モデルが社会的・文化的文脈の粒度の異なるレベルに適応する能力を評価する。
NormAdデータセットとその関連コードはGitHubでリリースしています。
- 参考スコア(独自算出の注目度): 26.64843536942309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.
- Abstract(参考訳): LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。
しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。
我々の研究は、この側面に焦点を当てている。
我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。
我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。
明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。
NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。
固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。
我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。
NormAdデータセットとその関連コードはGitHubでリリースしています。
関連論文リスト
- Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Sociocultural Norm Similarities and Differences via Situational
Alignment and Explainable Textual Entailment [31.929550141633218]
本研究では,中国文化とアメリカ文化にまたがる社会規範の発見と比較のための新しいアプローチを提案する。
我々は、中国とアメリカの文化の社会状況に合わせて、3,069の社会的規範の高品質なデータセットを構築します。
モデルが文化全体にわたって社会的規範を推論する能力をテストするために,説明可能な社会的規範の包含という課題を導入する。
論文 参考訳(メタデータ) (2023-05-23T19:43:47Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。