論文の概要: Vision Language Models are Confused Tourists
- arxiv url: http://arxiv.org/abs/2511.17004v1
- Date: Fri, 21 Nov 2025 07:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.917557
- Title: Vision Language Models are Confused Tourists
- Title(参考訳): 視覚言語モデルは観光客を混乱させる
- Authors: Patrick Amadeus Irawan, Ikhlasul Akmal Hanif, Muhammad Dehan Al Kautsar, Genta Indra Winata, Fajri Koto, Alham Fikri Aji,
- Abstract要約: 視覚言語モデル(VLM)の評価を目的とした,新しい文化的対人ロバストネススイートであるConfusedTouristを紹介する。
私たちの実験では、単純なイメージスタッキングの摂動の下で精度が大幅に低下し、画像生成に基づく変異によってさらに悪化する重大な脆弱性が明らかになりました。
これらの発見は、視覚的文化的概念の混合が、最先端のVLMさえも実質的に損なわれるという、重要な課題を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 31.85723694463742
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although the cultural dimension has been one of the key aspects in evaluating Vision-Language Models (VLMs), their ability to remain stable across diverse cultural inputs remains largely untested, despite being crucial to support diversity and multicultural societies. Existing evaluations often rely on benchmarks featuring only a singular cultural concept per image, overlooking scenarios where multiple, potentially unrelated cultural cues coexist. To address this gap, we introduce ConfusedTourist, a novel cultural adversarial robustness suite designed to assess VLMs' stability against perturbed geographical cues. Our experiments reveal a critical vulnerability, where accuracy drops heavily under simple image-stacking perturbations and even worsens with its image-generation-based variant. Interpretability analyses further show that these failures stem from systematic attention shifts toward distracting cues, diverting the model from its intended focus. These findings highlight a critical challenge: visual cultural concept mixing can substantially impair even state-of-the-art VLMs, underscoring the urgent need for more culturally robust multimodal understanding.
- Abstract(参考訳): ヴィジュアル・ランゲージ・モデル(VLM)を評価する上で、文化的側面は重要な側面の1つだが、多様性と多文化社会を支えることが不可欠であるにもかかわらず、様々な文化的入力を安定させる能力はほとんど証明されていない。
既存の評価はしばしば、複数の、潜在的に無関係な文化的手がかりが共存するシナリオを見越して、画像ごとに単一の文化的概念を特徴付けるベンチマークに頼っている。
このギャップに対処するために,VLMの安定性を評価するために設計された,新しい文化的対人ロバストネススイートであるConfusedTouristを紹介した。
私たちの実験では、単純なイメージスタッキングの摂動の下で精度が大幅に低下し、画像生成に基づく変異によってさらに悪化する重大な脆弱性が明らかになりました。
さらに、解釈可能性分析により、これらの失敗は、意図した焦点からモデルを逸脱させ、注意をそらすための体系的な変化に起因することが示される。
これらの発見は、視覚的文化的概念の混合が最先端のVLMを実質的に損なう可能性があり、より文化的に堅牢なマルチモーダル理解の必要性を浮き彫りにしている。
関連論文リスト
- CURE: Cultural Understanding and Reasoning Evaluation - A Framework for "Thick" Culture Alignment Evaluation in LLMs [24.598338950728234]
大規模言語モデル(LLM)は、文化的に多様な環境にますます展開されている。
既存の方法は、非文脈的正当性や強制選択判断に重点を置いている。
現実的な状況下でモデルを提示するベンチマークのセットを紹介する。
論文 参考訳(メタデータ) (2025-11-15T03:39:13Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - CAIRe: Cultural Attribution of Images by Retrieval-Augmented Evaluation [61.130639734982395]
本稿では,画像の文化的関連度を評価する新しい評価指標であるCAIReを紹介する。
本フレームワークは,イメージ内の実体と概念を知識ベースに基盤として,実情報を用いて各文化ラベルに対して独立した評価を行う。
論文 参考訳(メタデータ) (2025-06-10T17:16:23Z) - Evaluation of Cultural Competence of Vision-Language Models [25.953345583487312]
現代の視覚言語モデル(VLM)は、しばしば文化的能力評価とベンチマークで失敗する。
本稿では,視覚文化研究の基盤となる方法論が画像の文化的分析に欠かせないことを論じる。
論文 参考訳(メタデータ) (2025-05-28T19:04:04Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - Beyond Words: Exploring Cultural Value Sensitivity in Multimodal Models [26.051898880298126]
文化的文脈に基づく大規模言語モデルにおける価値アライメントの調査は、重要な研究領域となっている。
同様のバイアスは、大きな視覚言語モデル(VLM)では広く研究されていない。
論文 参考訳(メタデータ) (2025-02-18T19:03:02Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Vision-Language Models under Cultural and Inclusive Considerations [53.614528867159706]
視覚言語モデル(VLM)は、日常生活の画像を記述することで視覚障害者を支援する。
現在の評価データセットは、多様な文化的ユーザ背景や、このユースケースの状況を反映していない可能性がある。
我々は、字幕の好みを決定するための調査を作成し、視覚障害者によって撮影された画像を含む既存のデータセットであるVizWizをフィルタリングすることで、文化中心の評価ベンチマークを提案する。
次に,複数のVLMを評価し,その信頼性を文化的に多様な環境で視覚アシスタントとして検証した。
論文 参考訳(メタデータ) (2024-07-08T17:50:00Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。