論文の概要: Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench
- arxiv url: http://arxiv.org/abs/2504.01127v1
- Date: Tue, 01 Apr 2025 18:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:45.717602
- Title: Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Metacognitive Cultural Intelligence with CQ-Bench
- Title(参考訳): LLMs Graspは文化的価値を損なうか? : CQ-Benchを用いたLLMsのメタ認知文化知能のベンチマーク
- Authors: Ziyi Liu, Priyanka Dey, Zhenyu Zhao, Jen-tse Huang, Rahul Gupta, Yang Liu, Jieyu Zhao,
- Abstract要約: CQ-Benchは、大きな言語モデルの暗黙の文化的価値を推測する能力を評価するために設計されたベンチマークである。
我々は、World Value SurveyとGlobalOpinionsデータセットの値を用いて、マルチ文字の会話ベースのストーリーデータセットを生成する。
o1モデルとDeepseek-R1モデルは、値選択において人間レベルのパフォーマンスに達するが、それでもニュアンスな姿勢検出では不足している。
GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
- 参考スコア(独自算出の注目度): 37.63947763066401
- License:
- Abstract: Cultural Intelligence (CQ) refers to the ability to understand unfamiliar cultural contexts-a crucial skill for large language models (LLMs) to effectively engage with globally diverse users. While existing research often focuses on explicitly stated cultural norms, such approaches fail to capture the subtle, implicit values that underlie real-world conversations. To address this gap, we introduce CQ-Bench, a benchmark specifically designed to assess LLMs' capability to infer implicit cultural values from natural conversational contexts. We generate a multi-character conversation-based stories dataset using values from the World Value Survey and GlobalOpinions datasets, with topics including ethical, religious, social, and political. Our dataset construction pipeline includes rigorous validation procedures-incorporation, consistency, and implicitness checks-using GPT-4o, with 98.2% human-model agreement in the final validation. Our benchmark consists of three tasks of increasing complexity: attitude detection, value selection, and value extraction. We find that while o1 and Deepseek-R1 models reach human-level performance in value selection (0.809 and 0.814), they still fall short in nuanced attitude detection, with F1 scores of 0.622 and 0.635, respectively. In the value extraction task, GPT-4o-mini and o3-mini score 0.602 and 0.598, highlighting the difficulty of open-ended cultural reasoning. Notably, fine-tuning smaller models (e.g., LLaMA-3.2-3B) on only 500 culturally rich examples improves performance by over 10%, even outperforming stronger baselines (o3-mini) in some cases. Using CQ-Bench, we provide insights into the current challenges in LLMs' CQ research and suggest practical pathways for enhancing LLMs' cross-cultural reasoning abilities.
- Abstract(参考訳): カルチャーインテリジェンス(英: Cultural Intelligence、CQ)とは、大言語モデル(LLM)が世界規模の多様なユーザーと効果的に連携するための重要なスキルである、見慣れない文化的文脈を理解する能力のこと。
既存の研究はしばしば明示された文化的規範に焦点を当てているが、そのようなアプローチは現実世界の会話の根底にある微妙で暗黙的な価値を捉えられない。
このギャップに対処するために、自然会話の文脈から暗黙的な文化的価値を推測するLLMの能力を評価するために設計されたベンチマークであるCQ-Benchを紹介する。
我々は、世界価値調査とGlobalOpinionsデータセットの値を用いて、倫理的、宗教的、社会的、政治的トピックを含む多文字の会話ベースのストーリーデータセットを生成する。
我々のデータセット構築パイプラインには厳密な検証手順、一貫性、暗黙性チェックが組み込まれており、最終検証では98.2%の人間モデルが合意されている。
我々のベンチマークは、複雑さを増大させる3つのタスク、すなわち姿勢検出、値選択、値抽出からなる。
O1とDeepseek-R1は人間レベルの値選択性能(0.809と0.814)に達するが、F1のスコアはそれぞれ0.622と0.635である。
GPT-4o-miniとo3-miniのスコア0.602と0.598は、オープンエンドの文化的推論の難しさを浮き彫りにした。
LLaMA-3.2-3Bのような細調整された小さなモデルでは、文化的に豊かな例はわずか500点に過ぎず、性能は10%以上向上し、場合によってはより強力なベースライン(o3-mini)を上回ります。
CQ-Benchを用いて、LLMのCQ研究における現在の課題についての洞察を提供し、LLMの異文化間推論能力を高めるための実践的な経路を提案する。
関連論文リスト
- PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - Rethinking AI Cultural Alignment [1.8434042562191815]
人間の文化的価値は、特定のAIシステムのコンテキスト内で理解されなければならないことを示す。
文化的アライメントは双方向のプロセスとして再編成されるべきである、と私たちは主張する。
論文 参考訳(メタデータ) (2025-01-13T23:42:37Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - CultureLLM: Incorporating Cultural Differences into Large Language Models [36.66184989869121]
CultureLLMは、大きな言語モデルに文化的差異を組み込むためのコスト効率の良いソリューションである。
我々は、リッチで低リソースな言語をカバーする9つの文化に対して、文化固有のLLMと1つの統一モデル(CultureLLM-One)を微調整する。
我々の人間による研究は、生成されたサンプルが元のサンプルと意味的に等価であることを示している。
論文 参考訳(メタデータ) (2024-02-09T04:02:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。