論文の概要: RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
- arxiv url: http://arxiv.org/abs/2505.14462v1
- Date: Tue, 20 May 2025 14:57:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.4428
- Title: RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding
- Title(参考訳): RAVENEA: マルチモーダル検索による視覚文化理解のためのベンチマーク
- Authors: Jiaang Li, Yifei Yuan, Wenyan Li, Mohammad Aliannejadi, Daniel Hershcovich, Anders Søgaard, Ivan Vulić, Wenxuan Zhang, Paul Pu Liang, Yang Deng, Serge Belongie,
- Abstract要約: 本稿では,検索による視覚文化理解の促進を目的とした新しいベンチマークであるRAVENEAを紹介する。
RAVENEAは、文化中心の視覚的質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てている。
画像クエリ毎に7つのマルチモーダルレトリバーを訓練・評価し、14の最先端の視覚言語モデルにおける検索強化入力の下流への影響を計測する。
- 参考スコア(独自算出の注目度): 79.44246283490665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As vision-language models (VLMs) become increasingly integrated into daily life, the need for accurate visual culture understanding is becoming critical. Yet, these models frequently fall short in interpreting cultural nuances effectively. Prior work has demonstrated the effectiveness of retrieval-augmented generation (RAG) in enhancing cultural understanding in text-only settings, while its application in multimodal scenarios remains underexplored. To bridge this gap, we introduce RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), a new benchmark designed to advance visual culture understanding through retrieval, focusing on two tasks: culture-focused visual question answering (cVQA) and culture-informed image captioning (cIC). RAVENEA extends existing datasets by integrating over 10,000 Wikipedia documents curated and ranked by human annotators. With RAVENEA, we train and evaluate seven multimodal retrievers for each image query, and measure the downstream impact of retrieval-augmented inputs across fourteen state-of-the-art VLMs. Our results show that lightweight VLMs, when augmented with culture-aware retrieval, outperform their non-augmented counterparts (by at least 3.2% absolute on cVQA and 6.2% absolute on cIC). This highlights the value of retrieval-augmented methods and culturally inclusive benchmarks for multimodal understanding.
- Abstract(参考訳): 視覚言語モデル(VLM)が日々の生活に統合されるにつれ、正確な視覚文化理解の必要性が高まっている。
しかし、これらのモデルは文化的なニュアンスを効果的に解釈するのにしばしば不足する。
これまでの研究は、テキストのみの設定における文化的理解を高めるために、検索強化世代(RAG)の有効性を実証してきた。
このギャップを埋めるために、我々は、検索による視覚文化理解を促進するために設計された新しいベンチマークであるRAVENEA(Retrieval-Augmented Visual culturE uNdErstAnding)を紹介し、文化中心の視覚質問応答(cVQA)と文化インフォームドイメージキャプション(cIC)の2つのタスクに焦点を当てた。
RAVENEAは、人間のアノテータによってキュレーションされランク付けされた1万以上のウィキペディア文書を統合することで、既存のデータセットを拡張している。
RAVENEAを用いて、画像クエリ毎に7つのマルチモーダルレトリバーを訓練、評価し、14の最先端VLMにおける検索強化入力の下流への影響を計測する。
以上の結果から, 軽量なVLMは, カルチャー・アウェア検索によって強化された場合, 拡張されていないVLMよりも優れていた(cVQAでは少なくとも3.2%, cICでは6.2%)。
これは、検索強化手法の価値と、マルチモーダル理解のための文化的包括的ベンチマークを強調している。
関連論文リスト
- CAReDiO: Cultural Alignment of LLM via Representativeness and Distinctiveness Guided Data Optimization [50.90288681622152]
大規模言語モデル(LLM)は、より深く様々な地域における人間の生活に統合される。
既存のアプローチは、文化固有のコーパスを微調整することで、文化的に整合したLCMを開発する。
本稿では,新しい文化データ構築フレームワークであるCAReDiOを紹介する。
論文 参考訳(メタデータ) (2025-04-09T13:40:13Z) - CultureVLM: Characterizing and Improving Cultural Understanding of Vision-Language Models for over 100 Countries [63.00147630084146]
視覚言語モデル(VLM)は高度な人間とAIの相互作用を持つが、文化的な理解に苦慮している。
CultureVerseは大規模なマルチモーダルベンチマークで、682の文化的概念、188の国/地域、15の文化的概念、3の質問タイプをカバーしている。
本稿では,文化理解の大幅な向上を実現するために,我々のデータセットを微調整したVLMのシリーズであるCultureVLMを提案する。
論文 参考訳(メタデータ) (2025-01-02T14:42:37Z) - ValuesRAG: Enhancing Cultural Alignment Through Retrieval-Augmented Contextual Learning [1.1343849658875087]
ValuesRAGは、テキスト生成中に文化的および人口統計学的知識を動的に統合する新しいフレームワークである。
本研究では,6つの地域データセットを用いてValuesRAGを評価し,ベースラインを一貫して上回ることを示す。
本研究は,グローバルLLM能力と局所文化的価値のギャップを埋める動的検索手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-01-02T03:26:13Z) - CROPE: Evaluating In-Context Adaptation of Vision and Language Models to Culture-Specific Concepts [45.77570690529597]
文化固有の概念の知識を探索するための視覚的質問応答ベンチマークであるCROPEを紹介する。
いくつかの最先端のオープンビジョンと言語モデルの評価は、文化固有の概念と共通の概念の相違が大きいことを示す。
文脈知識を用いた実験は、モデルがマルチモーダル情報を効果的に活用し、文化固有の概念を描写に結びつけるのに苦労していることを示している。
論文 参考訳(メタデータ) (2024-10-20T17:31:19Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - No Filter: Cultural and Socioeconomic Diversity in Contrastive Vision-Language Models [38.932610459192105]
コントラッシブ・ビジョン言語モデル(VLM)における文化的・社会経済的多様性の研究
我々の研究は、より包括的なマルチモーダルシステムを構築するために、多様なデータを使うことの価値を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-22T16:04:22Z) - CulturalTeaming: AI-Assisted Interactive Red-Teaming for Challenging LLMs' (Lack of) Multicultural Knowledge [69.82940934994333]
我々は、人間とAIのコラボレーションを活用して、挑戦的な評価データセットを構築するインタラクティブなレッドチームシステムであるCulturalTeamingを紹介する。
我々の研究は、CulturalTeamingの様々なAI支援モードが、文化的な質問の作成においてアノテータを支援することを明らかにした。
CULTURALBENCH-V0.1は、ユーザのリピートの試みにより、コンパクトだが高品質な評価データセットである。
論文 参考訳(メタデータ) (2024-04-10T00:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。