論文の概要: World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.22787v1
- Date: Thu, 27 Nov 2025 22:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.722199
- Title: World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models
- Title(参考訳): World in a Frame: ビジョンランゲージモデルの新たな挑戦としての文化の混合を理解する
- Authors: Eunsu Kim, Junyeong Park, Na Min An, Junseong Kim, Hitesh Laxmichand Patel, Jiho Jin, Julia Kruk, Amit Agarwal, Srikant Panda, Fenal Ashokbhai Ilasariya, Hyunjung Shim, Alice Oh,
- Abstract要約: 大規模視覚・言語モデルが文化混合のシナリオをどのように知覚するかを考察する。
食品ビジュアル質問回答 (VQA) ベンチマークである CultureMix を用いて,23k の拡散生成,人間による検証,画像の混合を行う。
個別の文化的アイデンティティを混在した環境で保存する一貫した失敗を見出す。
- 参考スコア(独自算出の注目度): 41.385606397781714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In a globalized world, cultural elements from diverse origins frequently appear together within a single visual scene. We refer to these as culture mixing scenarios, yet how Large Vision-Language Models (LVLMs) perceive them remains underexplored. We investigate culture mixing as a critical challenge for LVLMs and examine how current models behave when cultural items from multiple regions appear together. To systematically analyze these behaviors, we construct CultureMix, a food Visual Question Answering (VQA) benchmark with 23k diffusion-generated, human-verified culture mixing images across four subtasks: (1) food-only, (2) food+food, (3) food+background, and (4) food+food+background. Evaluating 10 LVLMs, we find consistent failures to preserve individual cultural identities in mixed settings. Models show strong background reliance, with accuracy dropping 14% when cultural backgrounds are added to food-only baselines, and they produce inconsistent predictions for identical foods across different contexts. To address these limitations, we explore three robustness strategies. We find supervised fine-tuning using a diverse culture mixing dataset substantially improve model consistency and reduce background sensitivity. We call for increased attention to culture mixing scenarios as a critical step toward developing LVLMs capable of operating reliably in culturally diverse real-world environments.
- Abstract(参考訳): グローバル化した世界では、様々な起源の文化的要素が単一の視覚的なシーンで一緒に現れることが多い。
我々はこれらを文化混合シナリオと呼んでいるが、どのようにLVLM(Large Vision-Language Models)がそれらを過小評価しているかは、まだ不明である。
我々は,LVLMにとって重要な課題である文化混合について検討し,複数の地域からの文化アイテムが一緒に出現する際の現在のモデルがどのように振る舞うかを検討する。
これらの行動を体系的に分析するために,食品視覚質問回答(VQA)ベンチマークであるCultureMixを構築し,食のみ,食+食品,食+バックグラウンド,食+食品+バックグラウンドの4つのサブタスクに画像が混在している。
10LVLMの評価では, 個別の文化的アイデンティティを混在した環境で保存する上で一貫した失敗がみられた。
モデルは強い背景依存性を示し、文化的な背景が食品のみのベースラインに追加されると14%の精度が低下し、異なる文脈における同一の食品に対する一貫性のない予測が生成される。
これらの制限に対処するため、我々は3つの堅牢性戦略を探求する。
多様な培養混合データセットを用いた教師付き微調整により,モデルの一貫性が大幅に向上し,背景感度が低下することがわかった。
我々は、文化的に多様な実環境において確実に動作可能なLVLMを開発するための重要なステップとして、文化混合シナリオへの注目の高まりを訴える。
関連論文リスト
- Where Culture Fades: Revealing the Cultural Gap in Text-to-Image Generation [43.352493955825736]
現在のT2Iモデルは、多言語的なプロンプトの下で、文化的に中立な結果や英語に偏った結果をもたらすことが多い。
本稿では,培養感受性シグナルを少数の固定層内の小さなニューロン群に局在させる探索法を提案する。
論文 参考訳(メタデータ) (2025-11-21T14:40:50Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - Does Mapo Tofu Contain Coffee? Probing LLMs for Food-related Cultural Knowledge [47.57055368312541]
FmLAMA(FmLAMA)は、食品関連の文化的事実と食実践のバリエーションに着目した多言語データセットである。
我々は,LLMを様々なアーキテクチャや構成にわたって分析し,その性能を単言語と多言語の両方で評価する。
論文 参考訳(メタデータ) (2024-04-10T08:49:27Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。