論文の概要: Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Cultural Intelligence with CQ-Bench
- arxiv url: http://arxiv.org/abs/2504.01127v2
- Date: Thu, 09 Oct 2025 08:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.425536
- Title: Can LLMs Grasp Implicit Cultural Values? Benchmarking LLMs' Cultural Intelligence with CQ-Bench
- Title(参考訳): LLMs Graspは文化的価値を損なうか? : CQ-BenchによるLCMsの文化的知性の評価
- Authors: Ziyi Liu, Priyanka Dey, Jen-tse Huang, Zhenyu Zhao, Bowen Jiang, Rahul Gupta, Yang Liu, Yao Du, Jieyu Zhao,
- Abstract要約: 文化インテリジェンス(文化インテリジェンス、英: Cultural Intelligence、略称:CQ)とは、文化の文脈を理解する能力のこと。
既存の研究は、しばしば明示された文化的規範に焦点を当てるが、日々の会話でよく見られる微妙で暗黙的な価値を捉えることに失敗する。
自然会話の文脈から暗黙的な文化的価値を推測するLLMの能力を評価するために設計されたベンチマークであるCQBenchを紹介する。
- 参考スコア(独自算出の注目度): 23.91961633899227
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cultural Intelligence (CQ) refers to the ability to understand unfamiliar cultural contexts, a crucial skill for large language models (LLMs) to effectively engage with globally diverse users. Existing studies often focus on explicitly stated cultural norms, but fail to capture the subtle, implicit values that are common in daily conversation. To address this gap, we introduce CQBench, a benchmark specifically designed to assess LLMs' capability to infer implicit cultural values from natural conversational contexts. CQBench consists of multi character conversation based stories using values from the World Value Survey and the GlobalOpinions, with topics including ethical, religious, social, etc. Our automatic dataset construction pipeline integrates rigorous validation procedures (incorporation, consistency, and implicitness checks), achieving a 94.5% human model agreement in the final validation. To leverage CQBench data, we design three tasks of increasing complexity: attitude detection, value selection, and value extraction. These tasks evaluate whether models can detect attitude and recognize values embedded within natural dialogues rather than relying on explicit cultural knowledge. We find that while frontier models like o1 reach human level performance in value selection (0.809 F1), they still fall short in nuanced attitude detection (0.622 F1). Notably, finetuning a smaller LLaMA-3.2-3B on only 500 culturally rich examples improves performance by over 10%, even outperforming o3-mini in some cases. Using CQ-Bench, we provide insights into the current challenges in LLMs' CQ research and suggest practical pathways for enhancing LLMs' cross-cultural reasoning abilities.
- Abstract(参考訳): 文化的インテリジェンス(英: Cultural Intelligence, CQ)とは、大言語モデル(LLM)が世界規模の多様なユーザーと効果的に連携するための重要なスキルである、見慣れない文化的文脈を理解する能力のこと。
既存の研究は、しばしば明示された文化的規範に焦点を当てるが、日々の会話でよく見られる微妙で暗黙的な価値を捉えることに失敗する。
このギャップに対処するために、自然会話の文脈から暗黙的な文化的価値を推測するLLMの能力を評価するために設計されたベンチマークであるCQBenchを紹介する。
CQBenchは、世界価値調査(World Value Survey)とグローバルオピニオン(GlobalOpinions)の値を用いた多文字の会話ベースのストーリーで構成され、倫理、宗教、社会などを含むトピックで構成されている。
我々の自動データセット構築パイプラインは厳密な検証手順(取り込み、一貫性、暗黙性チェック)を統合し、最終的な検証で94.5%の人間モデル合意を達成する。
CQBenchデータを活用するために,姿勢検出,値選択,値抽出という,複雑さを増大させる3つのタスクを設計する。
これらのタスクは、明示的な文化的知識に頼るのではなく、モデルが自然な対話の中に埋め込まれた価値観を検知し、認識できるかどうかを評価する。
o1のようなフロンティアモデルは、値選択において人間レベルのパフォーマンスに達する(0.809 F1)が、それでもニュアンス付き姿勢検出(0.622 F1)では不足している。
LLaMA-3.2-3B より小さな LLaMA-3.2-3B をわずか500個の文化的に豊かな例で微調整すると、性能は10%以上向上し、場合によっては o3-mini よりも向上する。
CQ-Benchを用いて、LLMのCQ研究における現在の課題についての洞察を提供し、LLMの異文化間推論能力を高めるための実践的な経路を提案する。
関連論文リスト
- Can LLMs Express Personality Across Cultures? Introducing CulturalPersonas for Evaluating Trait Alignment [16.702098536881127]
行動に富んだ文脈で人格表現を評価するための,人間による検証のための最初の大規模ベンチマークであるCulturalPersonasを紹介する。
我々のデータセットは、6つの異なる国で3000のシナリオベースの質問にまたがっており、地域価値に根ざした日々のシナリオを通してパーソナリティを引き出すように設計されている。
以上の結果から,CulturalPersonasは国固有の人格分布との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2025-06-06T01:33:19Z) - CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis [41.261808170896686]
CulFiTは、多言語データと微粒な報酬モデリングを利用して、文化的感受性と傾きを高める新しいトレーニングパラダイムである。
本手法は,文化関連諸質問を合成し,文化関連言語における批判データを構築し,文化文献を検証可能な知識単位に分解するために,きめ細かい報酬を用いる。
論文 参考訳(メタデータ) (2025-05-26T04:08:26Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [57.43233760384488]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
本稿では,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を把握し,事実知識に干渉することを見出した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CLASH: Evaluating Language Models on Judging High-Stakes Dilemmas from Multiple Perspectives [3.7731230532888036]
CLASH (Character perspective-based LLM Assessments in situations with High-Stakes) は、345のハイインパクトジレンマと3,795の個人視点からなるデータセットである。
GPT-4oやClaude-Sonnetのような最強のモデルでさえ、決定が曖昧であるべき状況を特定する上で、50%未満の精度を達成する。
論文 参考訳(メタデータ) (2025-04-15T02:54:16Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Cultural Learning-Based Culture Adaptation of Language Models [70.1063219524999]
大きな言語モデル(LLM)をさまざまな文化的価値に適用することは難しい課題です。
文化的学習に基づくLLMと文化的価値との整合性を高めるための新しい枠組みであるCLCAについて述べる。
論文 参考訳(メタデータ) (2025-04-03T18:16:26Z) - Randomness, Not Representation: The Unreliability of Evaluating Cultural Alignment in LLMs [7.802103248428407]
我々は,現在の調査に基づく評価手法の背景にある3つの仮定を特定し,検証する。
提示形式間の不安定性,評価された文化次元と保持された文化的次元間の不整合性,即時操舵時の不整合性などについて検討した。
論文 参考訳(メタデータ) (2025-03-11T17:59:53Z) - PerCul: A Story-Driven Cultural Evaluation of LLMs in Persian [19.816050739495573]
PerCulは、ペルシャ文化に対するLLMの感受性を評価するために設計されたデータセットである。
PerCulは、文化的に曖昧なシナリオをキャプチャするストーリーベースの、複数選択の質問を特徴とする。
我々は、最先端の多言語およびペルシア語固有のLLMを評価した。
論文 参考訳(メタデータ) (2025-02-11T11:07:44Z) - Self-Alignment: Improving Alignment of Cultural Values in LLMs via In-Context Learning [13.034603322224548]
In-context Learning(ICL)とヒューマンサーベイデータを組み合わせた簡易で安価な手法を提案する。
本手法は、英語以外のテスト言語で有用であることが証明され、文化的に多種多様な国に対応する文化的価値との整合性を向上させることができる。
論文 参考訳(メタデータ) (2024-08-29T12:18:04Z) - Beyond Metrics: Evaluating LLMs' Effectiveness in Culturally Nuanced, Low-Resource Real-World Scenarios [29.56889133557681]
本研究では、WhatsAppチャットから派生したデータセットに対する感情分析において、7つの主要言語モデル(LLM)の性能を評価する。
Mistral-7bとMixtral-8x7bは高いF1スコアを得たが、GPT-3.5-Turbo, Llama-2-70b, Gemma-7bは言語的・文脈的ニュアンスを理解するのに苦労していた。
GPT-4とGPT-4-Turboは多様な言語入力を把握し、様々な文脈情報を管理するのに優れていた。
論文 参考訳(メタデータ) (2024-06-01T07:36:59Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - NormAd: A Framework for Measuring the Cultural Adaptability of Large Language Models [26.64843536942309]
大規模言語モデル(LLM)は、ユーザ価値や文化にアウトプットを適応させる必要があります。
LLMの文化的適応性を評価するための評価フレームワークであるNormAdを紹介する。
我々はNormAd-Etiを作成した。これは、75か国における、社会的な倫理的関連文化規範を表す2.6kの状況記述のベンチマークである。
論文 参考訳(メタデータ) (2024-04-18T18:48:50Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。