論文の概要: GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
- arxiv url: http://arxiv.org/abs/2502.13766v1
- Date: Wed, 19 Feb 2025 14:27:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:09.339722
- Title: GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking
- Title(参考訳): GIMMICK -- グローバルなマルチモーダルマルチタスク文化知識ベンチマーク
- Authors: Florian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher,
- Abstract要約: GIMMICKは144か国にまたがる幅広い文化的知識を評価するために設計された広範囲なベンチマークである。
GIMMICKは、728のユニークな文化イベントやファセットにまたがる3つの新しいデータセット上に構築された6つのタスクで構成されている。
本研究では,(1)地域文化バイアス,(2)モデルサイズの影響,(3)入力モダリティ,(4)外部手がかりについて検討する。
- 参考スコア(独自算出の注目度): 29.664707739055068
- License:
- Abstract: Large Vision-Language Models (LVLMs) have recently gained attention due to their distinctive performance and broad applicability. While it has been previously shown that their efficacy in usage scenarios involving non-Western contexts falls short, existing studies are limited in scope, covering just a narrow range of cultures, focusing exclusively on a small number of cultural aspects, or evaluating a limited selection of models on a single task only. Towards globally inclusive LVLM research, we introduce GIMMICK, an extensive multimodal benchmark designed to assess a broad spectrum of cultural knowledge across 144 countries representing six global macro-regions. GIMMICK comprises six tasks built upon three new datasets that span 728 unique cultural events or facets on which we evaluated 20 LVLMs and 11 LLMs, including five proprietary and 26 open-weight models of all sizes. We systematically examine (1) regional cultural biases, (2) the influence of model size, (3) input modalities, and (4) external cues. Our analyses reveal strong biases toward Western cultures across models and tasks and highlight strong correlations between model size and performance, as well as the effectiveness of multimodal input and external geographic cues. We further find that models have more knowledge of tangible than intangible aspects (e.g., food vs. rituals) and that they excel in recognizing broad cultural origins but struggle with a more nuanced understanding.
- Abstract(参考訳): LVLM(Large Vision-Language Models)が最近注目されているのは、その特徴的性能と幅広い適用性である。
欧米以外の文脈における使用シナリオにおける有効性は低いが、既存の研究は範囲が限られており、限られた範囲の文化をカバーし、少数の文化的側面にのみ焦点をあてている。
グローバルな包括的LVLM研究に向けて,世界6つのマクロ領域を表す144カ国の文化知識の幅広い範囲を評価するために設計された,広範なマルチモーダル・ベンチマークであるGIMMICKを紹介する。
GIMMICKは728のユニークな文化イベントやファセットにまたがる3つの新しいデータセットに基づいて構築された6つのタスクで構成されており、20のLVLMと11のLLMを評価しました。
本研究では,(1)地域文化バイアス,(2)モデルサイズの影響,(3)入力モダリティ,(4)外部手がかりを体系的に検討する。
本分析は, モデルとタスク間の西洋文化に対する強いバイアスを明らかにし, モデルサイズと性能の相関性, マルチモーダル入力と外部地理的手がかりの有効性を明らかにする。
さらに、モデルは、無形の側面(例えば、食事と儀式)よりも有形的な側面の知識が豊富であることや、より広い文化的起源を認識するのに長けているが、より曖昧な理解に苦慮していることが分かる。
関連論文リスト
- CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Risks of Cultural Erasure in Large Language Models [4.613949381428196]
我々は,歴史的権力不平等を疑問視し,考慮する言語技術の量化可能な評価の必要性を論じる。
我々は、言語モデルがこれらの文脈を記述するよう依頼されたとき、世界中の様々な場所で生成する表現を探索する。
言語モデルアプリケーションを用いて,旅行レコメンデーションに表される文化を分析した。
論文 参考訳(メタデータ) (2025-01-02T04:57:50Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - CulturalBench: a Robust, Diverse and Challenging Benchmark on Measuring the (Lack of) Cultural Knowledge of LLMs [75.82306181299153]
文化ベンチについて紹介する: 文化的知識を評価するための1,227の人文的・人文的な質問である。
同じ質問を共有しながら異なる質問をするCulturalBench-EasyとCulturalBench-Hardの2つの設定でモデルを評価する。
人間のパフォーマンス(92.6%の精度)と比較して、カルチャーベンチ・ハードは、最もパフォーマンスの良いモデル(GPT-4o)が61.5%、最悪のモデル(Llama3-8b)が21.4%であるフロンティアのLLMにとってより難しい。
論文 参考訳(メタデータ) (2024-10-03T17:04:31Z) - Crossroads of Continents: Automated Artifact Extraction for Cultural Adaptation with Large Multimodal Models [22.92083941222383]
DALL-E 3によって生成され、人間によって検証される大規模なデータセットであるDalleStreetを紹介する。
我々は,オープンソース(LLaVA)とクローズドソース(GPT-4V)の両方のモデルを用いて,地理的サブリージョンレベルでの文化的理解の相違を見出した。
以上の結果から,LMMの文化的能力の微妙なイメージが浮かび上がっており,文化認識システムの開発の必要性が浮かび上がっている。
論文 参考訳(メタデータ) (2024-07-02T08:55:41Z) - From Local Concepts to Universals: Evaluating the Multicultural Understanding of Vision-Language Models [10.121734731147376]
視覚言語モデルの性能は、西欧文化のイメージに最適以下である。
様々なベンチマークが、モデルの文化的傾向をテストするために提案されているが、それらは限られた範囲の文化をカバーしている。
我々はGlobalRGベンチマークを導入し、普遍性を越えた検索と文化的な視覚的接地という2つの課題からなる。
論文 参考訳(メタデータ) (2024-06-28T23:28:28Z) - Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense [98.09670425244462]
大規模言語モデル(LLM)は、かなりの常識的理解を示している。
本稿では,文化的コモンセンスタスクの文脈におけるいくつかの最先端LCMの能力と限界について検討する。
論文 参考訳(メタデータ) (2024-05-07T20:28:34Z) - Towards Measuring and Modeling "Culture" in LLMs: A Survey [21.94407169332458]
大規模言語モデル(LLM)における文化的表現と包摂性の研究を目的とした,90以上の最近の論文について調査する。
いずれの研究も「文化」を明確に定義していない。
これらの側面を文化のプロキシと呼び、人口統計学と意味論的プロキシの2つの側面にまたがってそれらを整理します。
論文 参考訳(メタデータ) (2024-03-05T08:29:36Z) - Massively Multi-Cultural Knowledge Acquisition & LM Benchmarking [48.21982147529661]
本稿では,多文化知識獲得のための新しいアプローチを提案する。
本手法は,文化トピックに関するウィキペディア文書からリンクページの広範囲なネットワークへ戦略的にナビゲートする。
私たちの仕事は、AIにおける文化的格差のギャップを深く理解し、橋渡しするための重要なステップです。
論文 参考訳(メタデータ) (2024-02-14T18:16:54Z) - CDEval: A Benchmark for Measuring the Cultural Dimensions of Large Language Models [41.885600036131045]
CDEvalは、大規模言語モデルの文化的側面を評価するためのベンチマークである。
GPT-4の自動生成と人間による検証の両方を取り入れて構築され、7つの領域にわたる6つの文化的次元をカバーする。
論文 参考訳(メタデータ) (2023-11-28T02:01:25Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。