論文の概要: Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors
- arxiv url: http://arxiv.org/abs/2506.06987v1
- Date: Sun, 08 Jun 2025 04:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.602112
- Title: Cultural Bias Matters: A Cross-Cultural Benchmark Dataset and Sentiment-Enriched Model for Understanding Multimodal Metaphors
- Title(参考訳): 文化的バイアス問題:マルチモーダルメタファー理解のための異文化間ベンチマークデータセットと感性強化モデル
- Authors: Senqi Yang, Dongyu Zhang, Jing Ren, Ziqi Xu, Xiuzhen Zhang, Yiliao Song, Hongfei Lin, Feng Xia,
- Abstract要約: 中国語と英語のメタファーを横断的に研究するためのデータセットであるMultiMMを紹介する。
本稿では、感情埋め込みを統合し、文化的背景における比喩的理解を高めるベースラインモデルである感性強化メタファー検出(SEMD)を提案する。
- 参考スコア(独自算出の注目度): 26.473849906627677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metaphors are pervasive in communication, making them crucial for natural language processing (NLP). Previous research on automatic metaphor processing predominantly relies on training data consisting of English samples, which often reflect Western European or North American biases. This cultural skew can lead to an overestimation of model performance and contributions to NLP progress. However, the impact of cultural bias on metaphor processing, particularly in multimodal contexts, remains largely unexplored. To address this gap, we introduce MultiMM, a Multicultural Multimodal Metaphor dataset designed for cross-cultural studies of metaphor in Chinese and English. MultiMM consists of 8,461 text-image advertisement pairs, each accompanied by fine-grained annotations, providing a deeper understanding of multimodal metaphors beyond a single cultural domain. Additionally, we propose Sentiment-Enriched Metaphor Detection (SEMD), a baseline model that integrates sentiment embeddings to enhance metaphor comprehension across cultural backgrounds. Experimental results validate the effectiveness of SEMD on metaphor detection and sentiment analysis tasks. We hope this work increases awareness of cultural bias in NLP research and contributes to the development of fairer and more inclusive language models. Our dataset and code are available at https://github.com/DUTIR-YSQ/MultiMM.
- Abstract(参考訳): メタファーはコミュニケーションにおいて広く使われており、自然言語処理(NLP)において重要である。
自動メタファー処理に関するこれまでの研究は、主に西欧や北アメリカの偏見を反映するイングランドのサンプルからなる訓練データに依存していた。
この文化的歪は、モデル性能の過大評価と、NLPの進歩への貢献につながる可能性がある。
しかし、メタファー処理に対する文化的偏見の影響、特にマルチモーダルな文脈では、ほとんど解明されていない。
このギャップに対処するために、中国語と英語の比喩を横断的に研究するための多文化多言語メタファーであるMultiMMを紹介した。
MultiMMは8,461のテキストイメージ広告ペアで構成され、それぞれに微粒なアノテーションが伴い、単一の文化的領域を超えてマルチモーダルメタファーの深い理解を提供する。
さらに、感情埋め込みを統合し、文化的背景における比喩的理解を高めるベースラインモデルであるSEMD(Sentiment-Enriched Metaphor Detection)を提案する。
メタファー検出と感情分析におけるSEMDの有効性を実験的に検証した。
この研究がNLP研究における文化的偏見の認知を高め、より公平で包括的な言語モデルの開発に寄与することを願っている。
私たちのデータセットとコードはhttps://github.com/DUTIR-YSQ/MultiMMで公開されています。
関連論文リスト
- Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。
言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文 参考訳(メタデータ) (2025-05-30T14:25:45Z) - CaMMT: Benchmarking Culturally Aware Multimodal Machine Translation [25.213316704661352]
本稿では,5800枚以上の画像のベンチマークであるCaMMTと,英語と地域語でのパラレルキャプションを紹介する。
視覚的文脈は一般的に翻訳の質を向上し、特に文化特色項目(CSI)を扱い、性別の使い方を正す。
論文 参考訳(メタデータ) (2025-05-30T10:42:44Z) - EmoMeta: A Multimodal Dataset for Fine-grained Emotion Classification in Chinese Metaphors [16.510791655003096]
中国語のマルチモーダルデータセットは、5000のテキストイメージ対の比喩広告を含んでいる。
各エントリは、メタファーの発生、ドメインの関係、きめ細かい感情分類のために慎重に注釈付けされる。
論文 参考訳(メタデータ) (2025-05-12T10:23:39Z) - Towards Multimodal Metaphor Understanding: A Chinese Dataset and Model for Metaphor Mapping Identification [9.08615188602226]
我々は、特定のターゲットドメインとソースドメインのアノテーションを含む中国のマルチモーダルメタファー広告データセット(CM3D)を開発した。
我々は,これらのマッピングを識別するための認知過程をシミュレートする,CPMMIM (Chain-of-NLP) Prompting-based Metaphor Mapping Identification Model) を提案する。
論文 参考訳(メタデータ) (2025-01-05T04:15:03Z) - Meta4XNLI: A Crosslingual Parallel Corpus for Metaphor Detection and Interpretation [6.0158981171030685]
本稿ではスペイン語と英語の両方でメタファアノテーションを含むメタファ検出と解釈のタスクのための新しい並列データセットを提案する。
言語モデルのメタファ識別と理解能力について,一言語間実験と言語間実験による検討を行った。
論文 参考訳(メタデータ) (2024-04-10T14:44:48Z) - CMDAG: A Chinese Metaphor Dataset with Annotated Grounds as CoT for
Boosting Metaphor Generation [35.14142183519002]
本稿では,28Kの文からなる中国語メタファーコーパスについて紹介する。
アノテーションの正確性と一貫性を確保するため、包括的なガイドラインのセットを導入します。
伝統を破り、メタファー生成への我々のアプローチは、従来のテナーと車両の組み合わせよりも、その基盤と特徴を強調します。
論文 参考訳(メタデータ) (2024-02-20T17:00:41Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - WisdoM: Improving Multimodal Sentiment Analysis by Fusing Contextual
World Knowledge [73.76722241704488]
大規模視覚言語モデル(LVLM)から引き起こされる文脈的世界知識を利用してマルチモーダル感情分析を行うプラグインフレームワークWisdoMを提案する。
我々の手法は、いくつかの最先端手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-01-12T16:08:07Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Benchmarking Machine Translation with Cultural Awareness [50.183458829028226]
文化関連コンテンツの翻訳は、効果的な異文化間コミュニケーションに不可欠である。
多くの文化特化項目(CSI)は言語間の翻訳を欠いていることが多い。
この難しさは機械翻訳システムの文化的意識の分析を妨げる。
論文 参考訳(メタデータ) (2023-05-23T17:56:33Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。