論文の概要: Seeing Culture: A Benchmark for Visual Reasoning and Grounding
- arxiv url: http://arxiv.org/abs/2509.16517v1
- Date: Sat, 20 Sep 2025 03:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.83156
- Title: Seeing Culture: A Benchmark for Visual Reasoning and Grounding
- Title(参考訳): 文化を見る - ビジュアル推論とグラウンドのベンチマーク
- Authors: Burak Satar, Zhixin Ma, Patrick A. Irawan, Wilfried A. Mulyawan, Jing Jiang, Ee-Peng Lim, Chong-Wah Ngo,
- Abstract要約: 我々は、新しいアプローチによる文化的推論に焦点を当てたSeeing Culture Benchmark(SCB)を紹介する。
SCBベンチマークは、東南アジア7カ国の5つのカテゴリで128の文化的なアーティファクトをキャプチャする1,065のイメージで構成されている。
- 参考スコア(独自算出の注目度): 27.53575961739132
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal vision-language models (VLMs) have made substantial progress in various tasks that require a combined understanding of visual and textual content, particularly in cultural understanding tasks, with the emergence of new cultural datasets. However, these datasets frequently fall short of providing cultural reasoning while underrepresenting many cultures. In this paper, we introduce the Seeing Culture Benchmark (SCB), focusing on cultural reasoning with a novel approach that requires VLMs to reason on culturally rich images in two stages: i) selecting the correct visual option with multiple-choice visual question answering (VQA), and ii) segmenting the relevant cultural artifact as evidence of reasoning. Visual options in the first stage are systematically organized into three types: those originating from the same country, those from different countries, or a mixed group. Notably, all options are derived from a singular category for each type. Progression to the second stage occurs only after a correct visual option is chosen. The SCB benchmark comprises 1,065 images that capture 138 cultural artifacts across five categories from seven Southeast Asia countries, whose diverse cultures are often overlooked, accompanied by 3,178 questions, of which 1,093 are unique and meticulously curated by human annotators. Our evaluation of various VLMs reveals the complexities involved in cross-modal cultural reasoning and highlights the disparity between visual reasoning and spatial grounding in culturally nuanced scenarios. The SCB serves as a crucial benchmark for identifying these shortcomings, thereby guiding future developments in the field of cultural reasoning. https://github.com/buraksatar/SeeingCulture
- Abstract(参考訳): マルチモーダル視覚言語モデル(VLM)は、新しい文化データセットの出現とともに、特に文化的理解タスクにおいて、視覚的およびテキスト的内容の複合的な理解を必要とする様々なタスクにおいて大きな進歩を遂げている。
しかし、これらのデータセットは、多くの文化を過小評価しながら、文化的な推論を提供していないことが多い。
本稿では,VLMが文化的に豊かなイメージを2段階に分類することを求める,新たなアプローチによる文化的推論に焦点を当てたSeeing Culture Benchmark(SCB)を紹介する。
一 複数選択視覚質問応答(VQA)による正しい視覚オプションの選択及び
二 関連文化財を理由づけの証拠として区分すること。
第1段階の視覚的選択肢は、同じ国の出身者、異なる国の出身者、または混成集団の3つのタイプに体系的に分類される。
特に、すべてのオプションは各タイプの特異圏から導出される。
第2ステージへの進行は、正しい視覚オプションが選択された後にのみ発生する。
SCBベンチマークは、東南アジア7カ国の5つのカテゴリの文化遺物138点を捉えた1,065枚の画像と、3,178件の質問を伴い、その中の1,093件は人間の注釈によって精巧にキュレーションされている。
様々なVLMの評価により, 異種文化推論の複雑さが明らかになり, 文化的に曖昧なシナリオにおける視覚的推論と空間的根拠の相違が浮き彫りになる。
SCBはこれらの欠点を特定するための重要なベンチマークとして機能し、文化的推論の分野における今後の発展を導く。
https://github.com/buraksatar/SeeingCulture
関連論文リスト
- CultureScope: A Dimensional Lens for Probing Cultural Understanding in LLMs [57.653830744706305]
CultureScopeは、大規模な言語モデルにおける文化的理解を評価するための、これまでで最も包括的な評価フレームワークである。
文化的な氷山理論に触発されて、文化知識分類のための新しい次元スキーマを設計する。
実験結果から,文化的理解を効果的に評価できることが示唆された。
論文 参考訳(メタデータ) (2025-09-19T17:47:48Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding [79.44246283490665]
本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
論文 参考訳(メタデータ) (2025-05-20T14:57:16Z) - CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - Benchmarking Vision Language Models for Cultural Understanding [31.898921287065242]
本稿では,視覚言語モデル(VLM)の評価を目的とした視覚的質問応答ベンチマークであるCulturalVQAを紹介する。
我々は,5大陸11カ国の文化を表わす質問毎の回答が1~5である2,378枚の画像検索ペアのコレクションをキュレートした。
質問は、衣服、食べ物、飲み物、儀式、伝統など、様々な文化の側面の理解を調査する。
論文 参考訳(メタデータ) (2024-07-15T17:21:41Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。