論文の概要: Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning
- arxiv url: http://arxiv.org/abs/2509.23311v1
- Date: Sat, 27 Sep 2025 13:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.150156
- Title: Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning
- Title(参考訳): シンボルを見失う文化:視覚・言語モデルによる火災画像と文化的意味の推論
- Authors: Haorui Yu, Qiufeng Yi, Yijia Chu, Yang Zhao,
- Abstract要約: VLM(Vision-Language Models)は、しばしば文化的に有能に見えるが、実際の文化的理解よりも表面的なパターンマッチングに依存している。
本稿では,火災をテーマとした文化イメージに基づくVLM推論を,分類解析と説明解析の両方を通して探究するための診断枠組みを提案する。
- 参考スコア(独自算出の注目度): 4.338831772885821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) often appear culturally competent but rely on superficial pattern matching rather than genuine cultural understanding. We introduce a diagnostic framework to probe VLM reasoning on fire-themed cultural imagery through both classification and explanation analysis. Testing multiple models on Western festivals, non-Western traditions, and emergency scenes reveals systematic biases: models correctly identify prominent Western festivals but struggle with underrepresented cultural events, frequently offering vague labels or dangerously misclassifying emergencies as celebrations. These failures expose the risks of symbolic shortcuts and highlight the need for cultural evaluation beyond accuracy metrics to ensure interpretable and fair multimodal systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、しばしば文化的に有能に見えるが、実際の文化的理解よりも表面的なパターンマッチングに依存している。
本稿では,火災をテーマとした文化イメージに基づくVLM推論を,分類解析と説明解析の両方を通して探究するための診断枠組みを提案する。
西洋の祭り、非西洋の伝統、緊急の場面で複数のモデルをテストすると、体系的な偏見が浮き彫りになっている。
これらの失敗は、象徴的なショートカットのリスクを明らかにし、解釈可能で公正なマルチモーダルシステムを保証するために、精度の指標を超えた文化的評価の必要性を強調します。
関連論文リスト
- Seeing Culture: A Benchmark for Visual Reasoning and Grounding [27.53575961739132]
我々は、新しいアプローチによる文化的推論に焦点を当てたSeeing Culture Benchmark(SCB)を紹介する。
SCBベンチマークは、東南アジア7カ国の5つのカテゴリで128の文化的なアーティファクトをキャプチャする1,065のイメージで構成されている。
論文 参考訳(メタデータ) (2025-09-20T03:47:49Z) - CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。
これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。
我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文 参考訳(メタデータ) (2025-05-22T09:00:01Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。
これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。
我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文 参考訳(メタデータ) (2025-02-13T03:05:42Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in
Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。
LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文 参考訳(メタデータ) (2023-10-19T05:38:23Z) - The Myth of Culturally Agnostic AI Models [1.7259824817932292]
この論文は、文化的なAIモデルと文化的な特定のAIモデルへの取り組みの長所と短所に取り組みます。
本稿では,リスク軽減と文化的特異性とのトレードオフを示す出力の記憶とバイアスのいくつかの例について論じる。
論文 参考訳(メタデータ) (2022-11-28T12:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。