Fugu-MT 論文翻訳(概要): Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning

論文の概要: Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning

arxiv url: http://arxiv.org/abs/2509.23311v1
Date: Sat, 27 Sep 2025 13:56:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-30 22:32:19.150156
Title: Seeing Symbols, Missing Cultures: Probing Vision-Language Models' Reasoning on Fire Imagery and Cultural Meaning
Title（参考訳）: シンボルを見失う文化:視覚・言語モデルによる火災画像と文化的意味の推論
Authors: Haorui Yu, Qiufeng Yi, Yijia Chu, Yang Zhao,
Abstract要約: VLM(Vision-Language Models)は、しばしば文化的に有能に見えるが、実際の文化的理解よりも表面的なパターンマッチングに依存している。本稿では,火災をテーマとした文化イメージに基づくVLM推論を,分類解析と説明解析の両方を通して探究するための診断枠組みを提案する。
参考スコア（独自算出の注目度）: 4.338831772885821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Models (VLMs) often appear culturally competent but rely on superficial pattern matching rather than genuine cultural understanding. We introduce a diagnostic framework to probe VLM reasoning on fire-themed cultural imagery through both classification and explanation analysis. Testing multiple models on Western festivals, non-Western traditions, and emergency scenes reveals systematic biases: models correctly identify prominent Western festivals but struggle with underrepresented cultural events, frequently offering vague labels or dangerously misclassifying emergencies as celebrations. These failures expose the risks of symbolic shortcuts and highlight the need for cultural evaluation beyond accuracy metrics to ensure interpretable and fair multimodal systems.
Abstract（参考訳）: VLM(Vision-Language Models)は、しばしば文化的に有能に見えるが、実際の文化的理解よりも表面的なパターンマッチングに依存している。本稿では,火災をテーマとした文化イメージに基づくVLM推論を,分類解析と説明解析の両方を通して探究するための診断枠組みを提案する。西洋の祭り、非西洋の伝統、緊急の場面で複数のモデルをテストすると、体系的な偏見が浮き彫りになっている。これらの失敗は、象徴的なショートカットのリスクを明らかにし、解釈可能で公正なマルチモーダルシステムを保証するために、精度の指標を超えた文化的評価の必要性を強調します。

関連論文リスト

Cultural Counterfactuals: Evaluating Cultural Biases in Large Vision-Language Models with Counterfactual Examples [13.476728526770023]
文化バイアスを測定する上で重要な課題は、個人が属するグループを決定することは、しばしば画像の文化的文脈に依存することである。本稿では,宗教,国籍,社会経済的地位に関連する文化的バイアスを測定するために,60k近い反事実画像を含む高品質な合成データセットについて紹介する。
論文参考訳（メタデータ） (2026-03-02T20:19:53Z)
Do Large Language Models Truly Understand Cross-cultural Differences? [53.481048019144644]
我々は,大規模言語モデルの異文化間理解と推論を評価するシナリオベースのベンチマークを開発した。文化理論を基礎として、異文化の能力を9次元に分類する。データセットは連続的な拡張をサポートし、実験は他の言語への転送可能性を確認する。
論文参考訳（メタデータ） (2025-12-08T01:21:58Z)
Vision Language Models are Confused Tourists [31.85723694463742]
視覚言語モデル(VLM)の評価を目的とした,新しい文化的対人ロバストネススイートであるConfusedTouristを紹介する。私たちの実験では、単純なイメージスタッキングの摂動の下で精度が大幅に低下し、画像生成に基づく変異によってさらに悪化する重大な脆弱性が明らかになりました。これらの発見は、視覚的文化的概念の混合が、最先端のVLMさえも実質的に損なわれるという、重要な課題を浮き彫りにしている。
論文参考訳（メタデータ） (2025-11-21T07:14:46Z)
Culture in Action: Evaluating Text-to-Image Models through Social Activities [40.874302288116304]
テキスト・トゥ・イメージ(T2I)モデルは大規模なWebデータをトレーニングすることで印象的なフォトリアリズムを実現するが、モデルは文化的偏見を継承し、表現不足の地域を忠実に描写することができない。本稿では,T2Iモデルの評価ベンチマークであるCULTIVateを紹介する。文化的アライメント,幻覚,誇張された要素,多様性を測定するための4つの指標を提案する。
論文参考訳（メタデータ） (2025-11-07T19:51:11Z)
Seeing Culture: A Benchmark for Visual Reasoning and Grounding [27.53575961739132]
我々は、新しいアプローチによる文化的推論に焦点を当てたSeeing Culture Benchmark(SCB)を紹介する。 SCBベンチマークは、東南アジア7カ国の5つのカテゴリで128の文化的なアーティファクトをキャプチャする1,065のイメージで構成されている。
論文参考訳（メタデータ） (2025-09-20T03:47:49Z)
CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。実験結果から,文化的理解を効果的に評価できることが示唆された。
論文参考訳（メタデータ） (2025-09-19T17:47:48Z)
CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文参考訳（メタデータ） (2025-06-10T17:16:23Z)
From Surveys to Narratives: Rethinking Cultural Value Adaptation in LLMs [62.9861554207279]
LLM(Large Language Models)における文化的価値の適応は大きな課題である。これまでの作業は主に、World Values Survey (WVS)データを使用して、LLMをさまざまな文化的価値と整合させる。我々は,文化価値適応のためのWVSベースのトレーニングについて検討し,調査データのみに頼って文化規範を実践し,事実知識に干渉することを発見した。
論文参考訳（メタデータ） (2025-05-22T09:00:01Z)
RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。 RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文参考訳（メタデータ） (2025-05-20T14:57:16Z)
Diffusion Models Through a Global Lens: Are They Culturally Inclusive? [15.991121392458748]
我々はCultDiffベンチマークを導入し、最先端の拡散モデルを評価する。これらのモデルは、建築、衣服、食品の文化的なアーティファクトを生成するのに失敗することが多いことを示します。我々は、カルトディフ-Sというニューラルネットワークによる画像画像類似度測定法を開発し、文化的アーティファクトを用いた実画像と生成画像の人間の判断を予測する。
論文参考訳（メタデータ） (2025-02-13T03:05:42Z)
See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
Not All Countries Celebrate Thanksgiving: On the Cultural Dominance in Large Language Models [89.94270049334479]
本稿では,大規模言語モデル(LLM)における文化的優位性について述べる。 LLMは、ユーザーが非英語で尋ねるときに期待する文化とは無関係な、不適切な英語文化関連の回答を提供することが多い。
論文参考訳（メタデータ） (2023-10-19T05:38:23Z)
The Myth of Culturally Agnostic AI Models [1.7259824817932292]
この論文は、文化的なAIモデルと文化的な特定のAIモデルへの取り組みの長所と短所に取り組みます。本稿では,リスク軽減と文化的特異性とのトレードオフを示す出力の記憶とバイアスのいくつかの例について論じる。
論文参考訳（メタデータ） (2022-11-28T12:54:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。