論文の概要: CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding
- arxiv url: http://arxiv.org/abs/2503.10688v1
- Date: Wed, 12 Mar 2025 01:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:04.698204
- Title: CULEMO: Cultural Lenses on Emotion -- Benchmarking LLMs for Cross-Cultural Emotion Understanding
- Title(参考訳): CULEMO: 感情に関する文化レンズ -- 異文化間感情理解のためのLLMのベンチマーク
- Authors: Tadesse Destaw Belay, Ahmed Haj Ahmed, Alvin Grissom II, Iqra Ameer, Grigori Sidorov, Olga Kolesnikova, Seid Muhie Yimam,
- Abstract要約: カルチャー・レンズ・オン・エモーション (CuLEmo) は、6つの言語にまたがるカルチャー・アウェア・感情予測を評価するための最初のベンチマークである。
キュレモ語は言語ごとに400の工芸的な質問で構成されており、それぞれに微妙な文化的推論と理解が必要である。
その結果,(1) 感情の概念化は言語や文化によって大きく異なり,(2) LLMのパフォーマンスは言語や文化の文脈によって様々に異なり,(3) 明示的な国的文脈を持つ英語のプロンプトは,文化に意識された感情や感情理解のための英語のプロンプトよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 7.308914305652415
- License:
- Abstract: NLP research has increasingly focused on subjective tasks such as emotion analysis. However, existing emotion benchmarks suffer from two major shortcomings: (1) they largely rely on keyword-based emotion recognition, overlooking crucial cultural dimensions required for deeper emotion understanding, and (2) many are created by translating English-annotated data into other languages, leading to potentially unreliable evaluation. To address these issues, we introduce Cultural Lenses on Emotion (CuLEmo), the first benchmark designed to evaluate culture-aware emotion prediction across six languages: Amharic, Arabic, English, German, Hindi, and Spanish. CuLEmo comprises 400 crafted questions per language, each requiring nuanced cultural reasoning and understanding. We use this benchmark to evaluate several state-of-the-art LLMs on culture-aware emotion prediction and sentiment analysis tasks. Our findings reveal that (1) emotion conceptualizations vary significantly across languages and cultures, (2) LLMs performance likewise varies by language and cultural context, and (3) prompting in English with explicit country context often outperforms in-language prompts for culture-aware emotion and sentiment understanding. We hope this benchmark guides future research toward developing more culturally aligned NLP systems.
- Abstract(参考訳): NLP研究は、感情分析のような主観的なタスクにますます焦点を当てている。
しかし、既存の感情ベンチマークは、(1)キーワードベースの感情認識に大きく依存し、深い感情理解に必要な重要な文化的側面を見越し、(2)英語の注釈付きデータを他の言語に翻訳することで生成され、潜在的に信頼できない評価をもたらす、という2つの大きな欠点に悩まされている。
これらの問題に対処するため、我々は、アンハラ語、アラビア語、英語、ドイツ語、ヒンディー語、スペイン語の文化意識の感情予測を評価するために設計された最初のベンチマークであるCultural Lenses on Emotion (CuLEmo)を紹介した。
キュレモ語は言語ごとに400の工芸的な質問で構成されており、それぞれに微妙な文化的推論と理解が必要である。
このベンチマークを用いて、カルチャー認識の感情予測と感情分析のタスクについて、最先端のLCMを評価した。
その結果,(1) 感情の概念化は言語や文化によって大きく異なり,(2) LLMのパフォーマンスは言語や文化の文脈によって様々に異なり,(3) 明示的な国的文脈を持つ英語のプロンプトは,文化に意識された感情や感情理解のための英語のプロンプトよりも優れていることがわかった。
このベンチマークは、より文化的に整合したNLPシステムの開発に向けた今後の研究を導くことを願っている。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTER - 28の異なる言語のマルチラベルデータセットのコレクション。
データ収集とアノテーションプロセスとこれらのデータセット構築の課題について説明する。
BRIGHTERデータセットは、テキストベースの感情認識のギャップを埋めるためのステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Analyzing Cultural Representations of Emotions in LLMs through Mixed Emotion Survey [2.9213203896291766]
本研究では,大規模言語モデル(LLM)における感情の文化的表現の分析に焦点をあてる。
本手法は,日本人とアメリカ人の反応に特徴的な感情指標を同定した宮本らの研究に基づいている。
モデルが文献の証拠と限定的に一致していることがわかりました。
論文 参考訳(メタデータ) (2024-08-04T20:56:05Z) - Translating Across Cultures: LLMs for Intralingual Cultural Adaptation [12.5954253354303]
文化適応の課題を定義し,現代LLMの性能を評価するための評価枠組みを構築した。
我々は、自動適応で起こりうる問題を解析する。
本稿は, LLMの文化的理解と, 異文化のシナリオにおける創造性について, より深い知見を提供していくことを願っている。
論文 参考訳(メタデータ) (2024-06-20T17:06:58Z) - Extrinsic Evaluation of Cultural Competence in Large Language Models [53.626808086522985]
本稿では,2つのテキスト生成タスクにおける文化能力の評価に焦点をあてる。
我々は,文化,特に国籍の明示的なキューが,そのプロンプトに乱入している場合のモデル出力を評価する。
異なる国におけるアウトプットのテキスト類似性とこれらの国の文化的価値との間には弱い相関関係がある。
論文 参考訳(メタデータ) (2024-06-17T14:03:27Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - EmoBench: Evaluating the Emotional Intelligence of Large Language Models [73.60839120040887]
EmoBenchは、確立された心理学理論に基づいて、マシン感情知能(EI)の包括的な定義を提案するベンチマークである。
EmoBenchには、英語と中国語で400の手作りの質問が含まれている。
以上の結果から,既存の大規模言語モデルのEIと平均的な人間の間には,かなりのギャップがみられ,今後の研究に向けての有望な方向性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-02-19T11:48:09Z) - Language-based Valence and Arousal Expressions between the United States and China: a Cross-Cultural Examination [6.122854363918857]
本稿は,Twitter/X(米国)とSina Weibo(中国本土)を比較し,感情表現の文化的差異を考察する。
NRC-VADレキシコンを用いて、両プラットフォームにまたがる感情表現の異なるパターンを同定した。
われわれは、米国ユーザーが中国ユーザーよりも感情的な強さを示すなど、異文化間の大きな差異を明らかにした。
論文 参考訳(メタデータ) (2024-01-10T16:32:25Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Cultural Alignment in Large Language Models: An Explanatory Analysis Based on Hofstede's Cultural Dimensions [10.415002561977655]
本研究は,ホフステデの文化次元の枠組みを用いて文化的アライメントを定量化する文化アライメントテスト (Hoftede's CAT) を提案する。
我々は、米国、中国、アラブ諸国といった地域の文化的側面に対して、大規模言語モデル(LLM)を定量的に評価する。
その結果, LLMの文化的アライメントを定量化し, 説明的文化的次元におけるLCMの差異を明らかにすることができた。
論文 参考訳(メタデータ) (2023-08-25T14:50:13Z) - Multilingual Language Models are not Multicultural: A Case Study in
Emotion [8.73324795579955]
2023年の多言語LMは、文化や言語間の感情表現の相違を反映しているかどうかを考察する。
LMから得られる埋め込みはアングロ中心であり、生成的LMは他言語のプロンプトに応答しても西洋のノルムを反映している。
論文 参考訳(メタデータ) (2023-07-03T21:54:28Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。