論文の概要: NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models
- arxiv url: http://arxiv.org/abs/2404.12464v2
- Date: Thu, 23 May 2024 17:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-25 05:40:24.882584
- Title: NormAd: A Benchmark for Measuring the Cultural Adaptability of Large Language Models
- Title(参考訳): NormAd: 大規模言語モデルの文化的適応性を評価するベンチマーク
- Authors: Abhinav Rao, Akhila Yerukola, Vishwa Shah, Katharina Reinecke, Maarten Sap,
- Abstract要約: 我々は75カ国の社会的・文化的規範を表す新しい物語のデータセットであるNormAdを紹介した。
我々は,大規模言語モデルが社会的・文化的文脈の粒度の異なるレベルに適応する能力を評価する。
NormAdデータセットとその関連コードはGitHubでリリースしています。
- 参考スコア(独自算出の注目度): 26.64843536942309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Large Language Models (LLMs) into various global cultures fundamentally presents a cultural challenge: LLMs must navigate interactions, respect social norms, and avoid transgressing cultural boundaries. However, it is still unclear if LLMs can adapt their outputs to diverse cultural norms. Our study focuses on this aspect. We introduce NormAd, a novel dataset, which includes 2.6k stories that represent social and cultural norms from 75 countries, to assess the ability of LLMs to adapt to different granular levels of socio-cultural contexts such as the country of origin, its associated cultural values, and prevalent social norms. Our study reveals that LLMs struggle with cultural reasoning across all contextual granularities, showing stronger adaptability to English-centric cultures over those from the Global South. Even with explicit social norms, the top-performing model, Mistral-7b-Instruct, achieves only 81.8\% accuracy, lagging behind the 95.6\% achieved by humans. Evaluation on NormAd further reveals that LLMs struggle to adapt to stories involving gift-giving across cultures. Due to inherent agreement or sycophancy biases, LLMs find it considerably easier to assess the social acceptability of stories that adhere to cultural norms than those that deviate from them. Our benchmark measures the cultural adaptability (or lack thereof) of LLMs, emphasizing the potential to make these technologies more equitable and useful for global audiences. We release the NormAd dataset and its associated code on GitHub.
- Abstract(参考訳): LLMは相互作用をナビゲートし、社会的規範を尊重し、文化的境界を越えることを避けなければならない。
しかし、LLMが生産物を多様な文化規範に適応できるかどうかはまだ不明である。
我々の研究は、この側面に焦点を当てている。
我々は,75カ国の社会的・文化的規範を表す2.6kの物語を含む新しいデータセットであるNormAdを紹介した。
我々の研究は、LLMがすべての文脈の粒度を横断する文化的推論に苦慮していることを示し、グローバル・サウスの文化よりも英語中心の文化に強い適応性を示している。
明示的な社会的規範にもかかわらず、トップパフォーマンスモデルであるMistral-7b-Instructは81.8\%の精度しか達成せず、人間によって達成された95.6\%より遅れている。
NormAdの評価は、LLMが文化全体にわたるギフトギフトを含むストーリーに適応するのに苦労していることをさらに明らかにしている。
固有の合意や梅毒のバイアスのため、LLMは文化規範に従う物語の社会的受容性を評価するのが、彼らから逸脱しているものよりもはるかに容易である。
我々のベンチマークは、LLMの文化的適応性(またはその欠如)を測定し、これらの技術をグローバルな観客にとってより公平で有用なものにする可能性を強調している。
NormAdデータセットとその関連コードはGitHubでリリースしています。
関連論文リスト
- Localized Cultural Knowledge is Conserved and Controllable in Large Language Models [20.411764699679058]
文化的な文脈を明示的に提供することで、モデルが文化的に局所的な応答を生成できる能力が大幅に向上することを示す。
しかし、明確な促進効果にもかかわらず、答えは多様性を減らし、ステレオタイプに傾向がある。
我々は、すべての非英語言語にまたがって保存された明示的な文化的カスタマイズベクターを特定し、LLMを合成英語文化世界モデルから、各非英語文化世界に向けて操ることを可能にする。
論文 参考訳(メタデータ) (2025-04-14T12:53:58Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench [37.63947763066401]
CQ-Benchは、大きな言語モデルの暗黙の文化的価値を推測する能力を評価するために設計されたベンチマークである。
我々は、World Value SurveyとGlobalOpinionsデータセットの値を用いて、マルチ文字の会話ベースのストーリーデータセットを生成する。
o1モデルとDeepseek-R1モデルは、値選択において人間レベルのパフォーマンスに達するが、それでもニュアンスな姿勢検出では不足している。
GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
論文 参考訳(メタデータ) (2025-04-01T18:54:47Z) - Exploring Large Language Models on Cross-Cultural Values in Connection with Training Methodology [4.079147243688765]
大規模言語モデル(LLM)は人間と密接に相互作用し、人間の社会の文化的価値を深く理解する必要がある。
分析の結果,LLMは人間に類似した社会文化的規範を判断できるが,社会システムや進歩には影響しないことが明らかとなった。
モデルサイズの増加は、社会的価値をよりよく理解するのに役立つが、より小さなモデルは、合成データを使用することで強化することができる。
論文 参考訳(メタデータ) (2024-12-12T00:52:11Z) - SafeWorld: Geo-Diverse Safety Alignment [107.84182558480859]
大規模言語モデル(LLM)を評価するために特別に設計された新しいベンチマークであるSafeWorldを紹介する。
SafeWorldには2,342のユーザクエリが含まれており、それぞれ50か国と493のリージョン/ラストから、高品質で人間認証された文化規範と法的ポリシーを基礎としている。
トレーニングされたSafeWorldLMは、GPT-4oを含む競合モデルの3つの評価次元を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2024-12-09T13:31:46Z) - Evaluating Cultural and Social Awareness of LLM Web Agents [113.49968423990616]
CASAは,大規模言語モデルの文化的・社会的規範に対する感受性を評価するためのベンチマークである。
提案手法は,標準に違反するユーザクエリや観察を検知し,適切に応答するLLMエージェントの能力を評価する。
実験により、現在のLLMは非エージェント環境で大幅に性能が向上していることが示された。
論文 参考訳(メタデータ) (2024-10-30T17:35:44Z) - Navigating the Cultural Kaleidoscope: A Hitchhiker's Guide to Sensitivity in Large Language Models [4.771099208181585]
LLMはますますグローバルなアプリケーションにデプロイされ、さまざまなバックグラウンドを持つユーザが尊敬され、理解されることが保証される。
文化的な害は、これらのモデルが特定の文化的規範と一致しないときに起こり、文化的な価値観の誤った表現や違反をもたらす。
潜在的な文化的不感を露呈するシナリオを通じて、異なる文化的文脈におけるモデルアウトプットを評価するために作成された文化的調和テストデータセットと、多様なアノテータからのフィードバックに基づいた微調整による文化的感受性の回復を目的とした、文化的に整合した選好データセットである。
論文 参考訳(メタデータ) (2024-10-15T18:13:10Z) - Methodology of Adapting Large English Language Models for Specific Cultural Contexts [10.151487049108626]
本稿では,特定の文化的文脈における大規模モデルの迅速な適応手法を提案する。
適応LLMは、ドメイン固有の知識と安全性値への適応性において、その能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-26T09:16:08Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Sociocultural Norm Similarities and Differences via Situational
Alignment and Explainable Textual Entailment [31.929550141633218]
本研究では,中国文化とアメリカ文化にまたがる社会規範の発見と比較のための新しいアプローチを提案する。
我々は、中国とアメリカの文化の社会状況に合わせて、3,069の社会的規範の高品質なデータセットを構築します。
モデルが文化全体にわたって社会的規範を推論する能力をテストするために,説明可能な社会的規範の包含という課題を導入する。
論文 参考訳(メタデータ) (2023-05-23T19:43:47Z) - NormSAGE: Multi-Lingual Multi-Cultural Norm Discovery from Conversations
On-the-Fly [61.77957329364812]
本稿では,対話型多言語・多文化規範発見の新たな課題に対処する枠組みを提案する。
NormSAGEはノルム発見タスクと会話コンテキストを表す有向質問を通じてノルムに関する知識を導き出す。
さらに、発見される規範が正しいことを保証する自己検証メカニズムにより、言語モデル幻覚のリスクに対処する。
論文 参考訳(メタデータ) (2022-10-16T18:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。