Fugu-MT 論文翻訳(概要): From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

論文の概要: From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG

arxiv url: http://arxiv.org/abs/2605.15019v1
Date: Thu, 14 May 2026 16:20:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-15 21:45:34.940622
Title: From Scenes to Elements: Multi-Granularity Evidence Retrieval for Verifiable Multimodal RAG
Title（参考訳）: シーンから要素へ: 検証可能なマルチモーダルRAGのための多粒性証拠検索
Authors: Guanhua Chen, Chuyue Huang, Yutong Yao, Shudong Liu, Xueqing Song, Lidia S. Chao, Derek F. Wong,
Abstract要約: マルチモーダルベンチマークであるGranuVistaVQAを紹介した。視覚要素を3段階から一級検索単位として扱う多粒度フレームワークであるGranuRAGを提案する。実験の結果、グラヌラグは6つの強いベースラインに対して最大29.2%の改善を達成した。
参考スコア（独自算出の注目度）: 36.69565996447195
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Retrieval-Augmented Generation (RAG) systems retrieve evidence at coarse granularities (entire images or scenes), creating a mismatch with fine-grained user queries and making failures unverifiable. We introduce GranuVistaVQA, a multimodal benchmark featuring real-world landmarks with element-level annotations across multiple viewpoints, capturing the partial observation challenge where individual images contain only subsets of entities. We further propose GranuRAG, a multi-granularity framework that treats visual elements as first-class retrieval units through three stages: element-level detection and classification, multi-granularity cross-modal alignment for evidence retrieval, and attribution-constrained generation. By grounding retrieval at the element level rather than relying on implicit attention, our approach enables transparent error diagnosis. Experiments demonstrate that GranuRAG achieves up to 29.2% improvement over six strong baselines for this task.
Abstract（参考訳）: マルチモーダル検索・拡張生成(RAG)システムは、粗い粒度の証拠(画像やシーン)を検索し、きめ細かいユーザクエリによるミスマッチを作成し、失敗を検証不能にする。複数の視点にわたる要素レベルのアノテーションを備えた実世界のランドマークを特徴とするマルチモーダルベンチマークであるGranuVistaVQAを導入し、個々の画像がエンティティのサブセットのみを含む部分的な観察課題を捉えた。また,要素レベルの検出と分類,エビデンス検索のための多粒度クロスモーダルアライメント,帰属制約生成という3つの段階を通じて,視覚的要素を一級検索単位として扱う多粒度フレームワークであるGranuRAGを提案する。暗黙の注意を頼らずに要素レベルで探索を行うことで,透過的な誤り診断が可能となった。実験の結果、グラヌラグは6つの強力なベースラインに対して最大29.2%の改善を達成した。

関連論文リスト

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval [13.855117422052315]
LILaCは2つのコアイノベーションを特徴とするマルチモーダル検索フレームワークである。まず,2つのレイヤにおけるマルチモーダル情報を明示的に表現した階層化コンポーネントグラフを提案する。次に,遅延相互作用に基づくサブグラフ検索手法を提案する。
論文参考訳（メタデータ） (2026-02-04T06:55:48Z)
MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-01T12:27:40Z)
Multimodal Referring Segmentation: A Survey [93.24051010753817]
マルチモーダル参照セグメンテーション(Multimodal reference segmentation)は、テキストやオーディオフォーマットでの参照表現に基づいて、画像、ビデオ、および3Dシーンなどのターゲットオブジェクトを視覚シーンに分割することを目的としている。過去10年間で、畳み込みニューラルネットワーク、トランスフォーマー、および大規模言語モデルの進歩によって、マルチモーダルコミュニティにおいて大きな注目を集めてきた。
論文参考訳（メタデータ） (2025-08-01T02:14:00Z)
Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。 MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文参考訳（メタデータ） (2025-05-22T09:52:57Z)
OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文参考訳（メタデータ） (2025-05-10T14:24:41Z)
M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。 textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文参考訳（メタデータ） (2023-08-06T09:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。