論文の概要: M4-RAG: A Massive-Scale Multilingual Multi-Cultural Multimodal RAG
- arxiv url: http://arxiv.org/abs/2512.05959v1
- Date: Fri, 05 Dec 2025 18:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.14923
- Title: M4-RAG: A Massive-Scale Multilingual Multi-Cultural Multimodal RAG
- Title(参考訳): M4-RAG : 大規模多言語多言語多言語マルチモーダルRAG
- Authors: David Anugraha, Patrick Amadeus Irawan, Anshul Singh, En-Shiun Annie Lee, Genta Indra Winata,
- Abstract要約: 視覚言語モデル(VLM)は視覚的質問応答(VQA)において高い性能を達成した
Retrieval-Augmented Generation (RAG)は、最新の文化的基盤と多言語情報へのアクセスを可能にすることで、この制限を緩和する。
M4-RAGは42の言語と56の地域方言とレジスタをカバーする大規模なベンチマークである。
- 参考スコア(独自算出の注目度): 14.205193386331553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have achieved strong performance in visual question answering (VQA), yet they remain constrained by static training data. Retrieval-Augmented Generation (RAG) mitigates this limitation by enabling access to up-to-date, culturally grounded, and multilingual information; however, multilingual multimodal RAG remains largely underexplored. We introduce M4-RAG, a massive-scale benchmark covering 42 languages and 56 regional dialects and registers, comprising over 80,000 culturally diverse image-question pairs for evaluating retrieval-augmented VQA across languages and modalities. To balance realism with reproducibility, we build a controlled retrieval environment containing millions of carefully curated multilingual documents relevant to the query domains, approximating real-world retrieval conditions while ensuring consistent experimentation. Our systematic evaluation reveals that although RAG consistently benefits smaller VLMs, it fails to scale to larger models and often even degrades their performance, exposing a critical mismatch between model size and current retrieval effectiveness. M4-RAG provides a foundation for advancing next-generation RAG systems capable of reasoning seamlessly across languages, modalities, and cultural contexts.
- Abstract(参考訳): 視覚言語モデル (VLM) は視覚的質問応答 (VQA) において高い性能を達成しているが、静的なトレーニングデータに拘束されている。
Retrieval-Augmented Generation (RAG)はこの制限を緩和し、最新、文化的基盤、多言語情報へのアクセスを可能にしている。
M4-RAGは42の言語と56の地域方言とレジスタをカバーする大規模ベンチマークであり、言語とモダリティをまたいだ検索強化VQAを評価するために、文化的に多様な8,000以上の画像検索ペアで構成されている。
再現性とリアリズムのバランスをとるために,クエリ領域に関連する何百万もの慎重にキュレートされた多言語文書を含む制御された検索環境を構築し,一貫した実験を行いながら,実世界の検索条件を近似する。
我々の系統的評価では、RAGはより小さなVLMに対して一貫して恩恵を受けるが、より大きなモデルにスケールできず、しばしば性能を低下させ、モデルサイズと現在の検索効率の重大なミスマッチを露呈する。
M4-RAGは、言語、モダリティ、文化的文脈をシームレスに推論できる次世代RAGシステムの基盤を提供する。
関連論文リスト
- BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Task [89.45111250272559]
Retrieval-augmented Generation (RAG) は現代のNLPの基盤となっている。
本稿では,複数言語にまたがるRAGの有効性について,複数言語にまたがるオープンドメイン問合せに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-04-04T17:35:43Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models [27.18427414844769]
M4Uは多分野多言語マルチモーダル理解と推論の能力を評価するための新しいベンチマークである。
M4Uには、科学、工学、医療の分野で6つの言語で64の分野をカバーする10kのサンプルが含まれている。
M4Uを用いて,LMM(Large Multimodal Model)とLLM(Large Language Model)を外部ツールで広範囲に評価する。
論文 参考訳(メタデータ) (2024-05-24T15:25:28Z) - Benchmarking Large Language Models in Retrieval-Augmented Generation [53.504471079548]
大規模言語モデルに対する検索拡張生成の影響を系統的に検討する。
我々は、RAGに必要な4つの基本能力で、異なる大規模言語モデルの性能を解析する。
RGB(Retrieval-Augmented Generation Benchmark)は、英語と中国語の両方でRAG評価を行うための新しいコーパスである。
論文 参考訳(メタデータ) (2023-09-04T08:28:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。