論文の概要: When Tom Eats Kimchi: Evaluating Cultural Bias of Multimodal Large Language Models in Cultural Mixture Contexts
- arxiv url: http://arxiv.org/abs/2503.16826v1
- Date: Fri, 21 Mar 2025 03:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:21.264839
- Title: When Tom Eats Kimchi: Evaluating Cultural Bias of Multimodal Large Language Models in Cultural Mixture Contexts
- Title(参考訳): Tom Eats Kimchi:文化混合文脈における多モーダル大言語モデルの文化的バイアスの評価
- Authors: Jun Seong Kim, Kyaw Ye Thu, Javad Ismayilzada, Junyeong Park, Eunsu Kim, Huzama Ahmad, Na Min An, James Thorne, Alice Oh,
- Abstract要約: 異文化間バイアスベンチマークであるMixCuBeを導入し、5カ国と4民族の要素について検討する。
以上の結果から,MLLMは高資源培養において高い精度と低感度を達成できることが判明した。
GPT-4oは、全体として最高のパフォーマンスモデルであり、低リソース文化における原文化と摂動文化の精度の最大58%の違いを示している。
- 参考スコア(独自算出の注目度): 15.78054683369659
- License:
- Abstract: In a highly globalized world, it is important for multi-modal large language models (MLLMs) to recognize and respond correctly to mixed-cultural inputs. For example, a model should correctly identify kimchi (Korean food) in an image both when an Asian woman is eating it, as well as an African man is eating it. However, current MLLMs show an over-reliance on the visual features of the person, leading to misclassification of the entities. To examine the robustness of MLLMs to different ethnicity, we introduce MixCuBe, a cross-cultural bias benchmark, and study elements from five countries and four ethnicities. Our findings reveal that MLLMs achieve both higher accuracy and lower sensitivity to such perturbation for high-resource cultures, but not for low-resource cultures. GPT-4o, the best-performing model overall, shows up to 58% difference in accuracy between the original and perturbed cultural settings in low-resource cultures. Our dataset is publicly available at: https://huggingface.co/datasets/kyawyethu/MixCuBe.
- Abstract(参考訳): 高度にグローバル化した世界では、多モーダルな大言語モデル(MLLM)が混成文化の入力を正しく認識し、応答することが重要である。
例えば、アジア系の女性が食べている場合とアフリカ系の男性が食べている場合の両方で、モデルが正確にキムチを識別すべきである。
しかし、現在のMLLMは、その人の視覚的特徴に過度に依存しており、実体の誤分類につながる。
異なる民族に対するMLLMの堅牢性を検討するため、異文化間のバイアスベンチマークであるMixCuBeを導入し、5つの国と4つの民族の要素について検討する。
その結果,MLLMは高資源培養では高い精度と低い感度を達成できたが,低資源培養では実現しなかった。
GPT-4oは、全体として最高のパフォーマンスモデルであり、低リソース文化における原文化と摂動文化の精度の最大58%の違いを示している。
私たちのデータセットは、https://huggingface.co/datasets/kyawyethu/MixCuBeで公開されています。
関連論文リスト
- CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - CulturePark: Boosting Cross-cultural Understanding in Large Language Models [63.452948673344395]
本稿では,LLMを利用した文化データ収集のためのマルチエージェント通信フレームワークであるCultureParkを紹介する。
人間の信念、規範、習慣をカプセル化した高品質な異文化対話を生成する。
我々はこれらのモデルを,コンテンツモデレーション,文化的アライメント,文化教育という3つの下流課題にまたがって評価する。
論文 参考訳(メタデータ) (2024-05-24T01:49:02Z) - CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting [73.94059188347582]
110か国・地域での3つのSOTAモデルの文化認識を,文化条件付き世代を通して8つの文化関連トピックについて明らかにした。
文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。
論文 参考訳(メタデータ) (2024-04-16T00:50:43Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - CultureLLM: Incorporating Cultural Differences into Large Language Models [36.66184989869121]
CultureLLMは、大きな言語モデルに文化的差異を組み込むためのコスト効率の良いソリューションである。
我々は、リッチで低リソースな言語をカバーする9つの文化に対して、文化固有のLLMと1つの統一モデル(CultureLLM-One)を微調整する。
我々の人間による研究は、生成されたサンプルが元のサンプルと意味的に等価であることを示している。
論文 参考訳(メタデータ) (2024-02-09T04:02:43Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - Having Beer after Prayer? Measuring Cultural Bias in Large Language Models [25.722262209465846]
多言語およびアラビア語のモノリンガルLMは、西洋文化に関連する実体に対して偏見を示すことを示す。
アラブ文化と西洋文化を対比する8つのタイプにまたがる628個の自然発生プロンプトと20,368個のエンティティからなる新しい資源であるCAMeLを紹介した。
CAMeLを用いて、物語生成、NER、感情分析などのタスクにおいて、16の異なるLMのアラビア語における異文化間性能について検討した。
論文 参考訳(メタデータ) (2023-05-23T18:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。