論文の概要: Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering
- arxiv url: http://arxiv.org/abs/2511.22843v1
- Date: Fri, 28 Nov 2025 02:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.745256
- Title: Breaking the Visual Shortcuts in Multimodal Knowledge-Based Visual Question Answering
- Title(参考訳): マルチモーダル知識に基づく視覚的質問応答における視覚的ショートカットの破滅
- Authors: Dosung Lee, Sangwon Jung, Boyoung Kim, Minyoung Kim, Sungyeon Kim, Junyoung Sung, Paul Hongsuck Seo,
- Abstract要約: 視覚的ショートカット」に苦しむマルチモーダル知識に基づく視覚的質問応答
関連エンティティの画像を拡大することにより文書埋め込みを充実させるマルチイメージMultImodal Retriever(MIMIR)を導入する。
本実験は,既存のベンチマークの限界を検証し,MIMIRの有効性を実証するものである。
- 参考スコア(独自算出の注目度): 29.782721931657544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Multimodal Knowledge-Based Visual Question Answering (MKB-VQA) benchmarks suffer from "visual shortcuts", as the query image typically matches the primary subject entity of the target document. We demonstrate that models can exploit these shortcuts, achieving comparable results using visual cues alone. To address this, we introduce Relational Entity Text-Image kNowledge Augmented (RETINA) benchmark, automatically constructed using an LLM-driven pipeline, consisting of 120k training and 2k human-curated test set. RETINA contains queries referencing secondary subjects (i.e. related entities) and pairs them with images of these related entities, removing the visual shortcut. When evaluated on RETINA existing models show significantly degraded performance, confirming their reliance on the shortcut. Furthermore, we propose Multi-Image MultImodal Retriever (MIMIR), which enriches document embeddings by augmenting images of multiple related entities, effectively handling RETINA, unlike prior work that uses only a single image per document. Our experiments validate the limitations of existing benchmarks and demonstrate the effectiveness of RETINA and MIMIR. Our project is available at: Project Page.
- Abstract(参考訳): 既存のMKB-VQA(Multimodal Knowledge-Based Visual Question Answering)ベンチマークは、クエリイメージが典型的にはターゲットドキュメントの主対象エンティティと一致するため、"視覚的ショートカット"に悩まされる。
モデルがこれらのショートカットを活用できることを実証し、視覚的手がかりだけで同等の結果が得られることを示す。
この問題を解決するために、120kのトレーニングと2kの人為的なテストセットからなるLLM駆動パイプラインを使用して自動的に構築されるRelational Entity Text-Image kNowledge Augmented (RETINA)ベンチマークを導入する。
RETINAには、二次主題(つまり関連エンティティ)を参照するクエリが含まれており、これら関連エンティティのイメージと組み合わせて視覚的ショートカットを削除する。
RETINAの既存モデルを評価すると、性能が著しく低下し、ショートカットに依存することが確認された。
さらに,複数の関連エンティティの画像を拡張して文書埋め込みを強化し,RETINAを効果的に扱うマルチイメージMultImodal Retriever (MIMIR)を提案する。
既存のベンチマークの限界を検証し,RETINAとMIMIRの有効性を実証した。
私たちのプロジェクトは以下の通りです。
関連論文リスト
- Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - VisRet: Visualization Improves Knowledge-Intensive Text-to-Image Retrieval [56.12310817934239]
クロスモーダルな埋め込みは概念の袋として振る舞うが、ポーズや視点のような構造的な視覚的関係が不足している。
この制限を緩和するT2I検索のための新しいパラダイムであるVisualize-then-Retrieve (VisRet)を提案する。
VisRetは、T2I検索をテキスト間類似性マッチングとして再キャストする、モーダル間の類似性マッチングとベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2025-05-26T17:59:33Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - ABC: Achieving Better Control of Multimodal Embeddings using VLMs [61.396457715710774]
ビジュアル埋め込みモデルは、ビジュアル検索や分類のようなゼロショットタスクで優れている。
これらのモデルは曖昧さやユーザ命令を必要とするタスクには使用できない。
本稿では,視覚言語モデルバックボーンを用いたオープンソースのマルチモーダル埋め込みモデルABCを紹介する。
論文 参考訳(メタデータ) (2025-03-01T03:29:02Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - VP-MEL: Visual Prompts Guided Multimodal Entity Linking [16.463229055333407]
MEL(Multimodal entity Linking)は、知識ベース(KB)において、マルチモーダルコンテキスト内の参照を対応するエンティティにリンクすることを目的としたタスクである。
既存のMEL手法は、しばしば検索手段として言及された単語を頼りにしており、画像とテキストの両方からの情報を効果的に活用する能力を制限する。
我々は,視覚的プロンプトを用いた視覚的特徴抽出を強化し,事前学習されたディレクティブ-VLMモデルを用いて潜時情報をキャプチャするIIERというフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:06:39Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。