論文の概要: Tears or Cheers? Benchmarking LLMs via Culturally Elicited Distinct Affective Responses
- arxiv url: http://arxiv.org/abs/2601.13024v1
- Date: Mon, 19 Jan 2026 13:04:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.906295
- Title: Tears or Cheers? Benchmarking LLMs via Culturally Elicited Distinct Affective Responses
- Title(参考訳): 涙かチーズか : 文化的に誘発された特異性反応によるLSMのベンチマーク
- Authors: Chongyuan Dai, Yaling Shen, Jinpeng Hu, Zihan Gao, Jia Li, Yishun Jiang, Yaxiong Wang, Liu Liu, Zongyuan Ge,
- Abstract要約: CEDARは、文化的にアンダーラインのscElicited underlinetextscDistinct underlinetextscAffective underlinetextscResponsesをキャプチャするシナリオから構築されたベンチマークである。
その結果得られたベンチマークは、7つの言語に10,962のインスタンスと14のきめ細かい感情カテゴリで構成され、各言語には400のマルチモーダルと1,166のテキストのみのサンプルが含まれている。
- 参考スコア(独自算出の注目度): 28.3173238194554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Culture serves as a fundamental determinant of human affective processing and profoundly shapes how individuals perceive and interpret emotional stimuli. Despite this intrinsic link extant evaluations regarding cultural alignment within Large Language Models primarily prioritize declarative knowledge such as geographical facts or established societal customs. These benchmarks remain insufficient to capture the subjective interpretative variance inherent to diverse sociocultural lenses. To address this limitation, we introduce CEDAR, a multimodal benchmark constructed entirely from scenarios capturing Culturally \underline{\textsc{E}}licited \underline{\textsc{D}}istinct \underline{\textsc{A}}ffective \underline{\textsc{R}}esponses. To construct CEDAR, we implement a novel pipeline that leverages LLM-generated provisional labels to isolate instances yielding cross-cultural emotional distinctions, and subsequently derives reliable ground-truth annotations through rigorous human evaluation. The resulting benchmark comprises 10,962 instances across seven languages and 14 fine-grained emotion categories, with each language including 400 multimodal and 1,166 text-only samples. Comprehensive evaluations of 17 representative multilingual models reveal a dissociation between language consistency and cultural alignment, demonstrating that culturally grounded affective understanding remains a significant challenge for current models.
- Abstract(参考訳): 文化は人間の感情的処理の基本的な決定要因であり、個人が感情的な刺激を知覚し、解釈する方法を深く形作っている。
このような本質的なリンクにもかかわらず、大規模言語モデルにおける文化的アライメントに関する評価は、主に地理的事実や確立された社会慣習といった宣言的な知識を優先している。
これらのベンチマークは、多様な社会文化的レンズに固有の主観的解釈的差異を捉えるには不十分である。
CEDARはCulturally \underline{\textsc{E}}licited \underline{\textsc{D}}istinct \underline{\textsc{A}}ffective \underline{\textsc{R}}esponsesをキャプチャするシナリオから構築されたマルチモーダルベンチマークである。
CEDARを構築するために, LLM生成した暫定ラベルを利用して, 異文化間の感情的区別を生じる事例を分離し, 厳密な人的評価によって信頼性の高い地平のアノテーションを導出するパイプラインを実装した。
その結果得られたベンチマークは、7つの言語に10,962のインスタンスと14のきめ細かい感情カテゴリで構成され、各言語には400のマルチモーダルと1,166のテキストのみのサンプルが含まれている。
17の代表的な多言語モデルの包括的評価は、言語一貫性と文化的アライメントの解離を示し、現在のモデルにとって文化的に根ざした感情的理解が重要な課題であることを示している。
関連論文リスト
- Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。
文化理論を基礎として、異文化の能力を9次元に分類する。
データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文 参考訳(メタデータ) (2025-12-08T01:21:58Z) - LLMs and Cultural Values: the Impact of Prompt Language and Explicit Cultural Framing [0.21485350418225244]
大規模言語モデル(LLM)は、世界中のユーザによって急速に採用され、さまざまな言語でそれらと対話している。
言語と文化のフレーミングが、異なる国の人的価値にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2025-11-06T02:09:29Z) - I Am Aligned, But With Whom? MENA Values Benchmark for Evaluating Cultural Alignment and Multilingual Bias in LLMs [5.060243371992739]
大規模言語モデル(LLM)の文化的アライメントと多言語バイアスを評価するための新しいベンチマークであるMENAValuesを紹介する。
大規模で権威ある人的調査から、我々は16カ国の人口レベルの応答分布を持つMENAの社会文化的景観を捉えた構造化データセットをキュレートした。
分析の結果,同じ質問が言語に基づいて大きく異なる反応をもたらす「クロス・Lingual Value Shifts」,その理由の説明を促す「Reasoning-induced Degradation」,モデルがセンシティブな質問を拒否する「Logit Leakage」,内部確率が強く隠蔽される「Logit Leakage」の3つの重要な現象が明らかになった。
論文 参考訳(メタデータ) (2025-10-15T05:10:57Z) - MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Cross-Cultural Transfer of Commonsense Reasoning in LLMs: Evidence from the Arab World [68.19795061447044]
本稿では,アラブ世界におけるコモンセンス推論の異文化間移動について検討する。
アラブ13カ国を対象とした文化基盤のコモンセンス推論データセットを用いて,軽量アライメント手法の評価を行った。
以上の結果から,他国の文化特有例は12例に過ぎず,他国の文化特有例を平均10%向上させることができた。
論文 参考訳(メタデータ) (2025-09-23T17:24:14Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Word to World: Evaluate and Mitigate Culture Bias in LLMs via Word Association Test [50.51344198689069]
我々は,人中心語関連テスト(WAT)を拡張し,異文化間認知による大規模言語モデルのアライメントを評価する。
文化選好に対処するために,モデルの内部表現空間に直接,文化固有の意味的関連性を直接埋め込む革新的なアプローチであるCultureSteerを提案する。
論文 参考訳(メタデータ) (2025-05-24T07:05:10Z) - CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding [7.308914305652415]
カルチャー・レンズ・オン・エモーション (CuLEmo) は、6つの言語にまたがるカルチャー・アウェア・感情予測を評価するための最初のベンチマークである。
キュレモ語は言語ごとに400の工芸的な質問で構成されており、それぞれに微妙な文化的推論と理解が必要である。
このベンチマークを用いて、カルチャーを意識した感情予測と感情分析タスクにおける、最先端のLCMの評価を行う。
論文 参考訳(メタデータ) (2025-03-12T01:01:30Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。