論文の概要: Multi-Modal Retrieval Augmentation for Open-Ended and Knowledge-Intensive Video Question Answering
- arxiv url: http://arxiv.org/abs/2502.11747v1
- Date: Mon, 17 Feb 2025 12:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:08:11.002982
- Title: Multi-Modal Retrieval Augmentation for Open-Ended and Knowledge-Intensive Video Question Answering
- Title(参考訳): オープンエンディングおよび知識集約型ビデオ質問応答のためのマルチモーダル検索拡張
- Authors: Md Zarif Ul Alam, Hamed Zamani,
- Abstract要約: 本研究は,KI-VideoQAのマルチモーダル検索拡張生成を初めて研究する試みである。
我々は,KI-VideoQAにおける知識統合を,検索の強化戦略がいかに促進するかを考察する。
我々の探索では、KnowIT VQAデータセットにおいて、複数の選択問題に対する最先端の精度を17.5%以上向上させる。
- 参考スコア(独自算出の注目度): 20.256081440725353
- License:
- Abstract: While current video question answering systems perform well on some tasks requiring only direct visual understanding, they struggle with questions demanding knowledge beyond what is immediately observable in the video content. We refer to this challenging scenario as knowledge-intensive video question answering (KI-VideoQA), where models must retrieve and integrate external information with visual understanding to generate accurate responses. This work presents the first attempt to (1) study multi-modal retrieval-augmented generation for KI-VideoQA, and (2) go beyond multi-choice questions by studying open-ended questions in this task. Through an extensive empirical study of state-of-the-art retrieval and vision language models in both zero-shot and fine-tuned settings, we explore how different retrieval augmentation strategies can enhance knowledge integration in KI-VideoQA. We analyze three key aspects: (1) model's effectiveness across different information sources and modalities, (2) the impact of heterogeneous multi-modal context integration, and (3) model's effectiveness across different query formulation and retrieval result consumption. Our results suggest that while retrieval augmentation generally improves performance, its effectiveness varies significantly based on modality choice and retrieval strategy. Additionally, we find that successful knowledge integration often requires careful consideration of query formulation and optimal retrieval depth. Our exploration advances state-of-the-art accuracy for multiple choice questions by over 17.5% on the KnowIT VQA dataset.
- Abstract(参考訳): 現在のビデオ質問応答システムは、直接的な視覚的理解を必要とするタスクでうまく機能するが、ビデオコンテンツの中ですぐに観察できるもの以上の知識を要求する質問に苦労する。
本稿では、この難解なシナリオを知識集約型ビデオ質問応答(KI-VideoQA)と呼ぶ。
本研究は,(1)KI-VideoQAのマルチモーダル検索拡張生成の研究,(2)この課題におけるオープンエンド質問の学習によるマルチモーダル質問を越えての学習の試みである。
ゼロショットと微調整の両方の環境での最先端検索と視覚言語モデルに関する広範な実証的研究を通じて, KI-VideoQAにおける知識統合をいかに促進するかを探索する。
我々は,(1)異なる情報ソースとモダリティにまたがるモデルの有効性,(2)不均一なマルチモーダルコンテキスト統合の影響,(3)異なるクエリの定式化と検索結果の消費にまたがるモデルの有効性の3つの重要な側面を分析する。
以上の結果から,検索の強化は一般に性能を向上させるが,その有効性はモダリティの選択や検索戦略によって大きく異なることが示唆された。
さらに,知識統合を成功させるためには,クエリの定式化と最適な検索深度を慎重に検討する必要がある場合が多い。
我々の探索では、KnowIT VQAデータセットにおいて、複数の選択問題に対する最先端の精度を17.5%以上向上させる。
関連論文リスト
- Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent [102.31558123570437]
マルチモーダル大規模言語モデル(MLLM)に固有の「ハロシン化」問題を緩和する上で,mRAG(Multimodal Retrieval Augmented Generation)が重要な役割を果たしている。
マルチモーダル検索のための自己適応型計画エージェントOmniSearchを提案する。
論文 参考訳(メタデータ) (2024-11-05T09:27:21Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - RoRA-VLM: Robust Retrieval-Augmented Vision Language Models [41.09545760534495]
RORA-VLMは、視覚言語モデルに特化して設計された、新規で堅牢な検索拡張フレームワークである。
提案手法の有効性とロバスト性を,広く採用されている3つのベンチマークデータセット上で検証する。
論文 参考訳(メタデータ) (2024-10-11T14:51:00Z) - GQE: Generalized Query Expansion for Enhanced Text-Video Retrieval [56.610806615527885]
本稿では,テキストとビデオ間の固有情報不均衡に対処するため,新しいデータ中心型アプローチであるGeneralized Query Expansion (GQE)を提案する。
ビデオをショートクリップにアダプティブに分割し、ゼロショットキャプションを採用することで、GQEはトレーニングデータセットを総合的なシーン記述で強化する。
GQEは、MSR-VTT、MSVD、SMDC、VATEXなど、いくつかのベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-14T01:24:09Z) - EchoSight: Advancing Visual-Language Models with Wiki Knowledge [39.02148880719576]
知識に基づく視覚質問応答のための新しいフレームワークであるEchoSightを紹介する。
ハイパフォーマンスな検索のために、EchoSightはまずビジュアルのみの情報を用いてwikiの記事を検索する。
The Encyclopedic VQA and InfoSeek datasets on our experimental results on the Encyclopedic VQA and InfoSeek shows that EchoSight establishs new-of-the-art results in knowledge-based VQA。
論文 参考訳(メタデータ) (2024-07-17T16:55:42Z) - Context Matters: Pushing the Boundaries of Open-Ended Answer Generation with Graph-Structured Knowledge Context [4.1229332722825]
本稿では,知識グラフに基づく拡張と合わせて,グラフ駆動型コンテキスト検索を組み合わせた新しいフレームワークを提案する。
我々は,様々なパラメータサイズを持つ大規模言語モデル(LLM)の実験を行い,知識の基盤化能力を評価し,オープンな質問に対する回答の事実的正確性を決定する。
われわれの方法であるGraphContextGenは、テキストベースの検索システムよりも一貫して優れており、その堅牢性と多くのユースケースへの適応性を実証している。
論文 参考訳(メタデータ) (2024-01-23T11:25:34Z) - Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual
Question Answering [32.21000330743921]
より一般的な質問に答える能力を備えたモデルを実現する新しいフレームワークを提案する。
具体的には、画像検索関連関係句を予測するために、明確に定義された検出器が採用されている。
最適解答は、最も高いスコアで支持事実を選択することにより予測される。
論文 参考訳(メタデータ) (2023-12-20T02:35:18Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - You Need to Read Again: Multi-granularity Perception Network for Moment
Retrieval in Videos [19.711703590063976]
本稿では,多粒度レベルでモダリティ内およびモダリティ間情報を知覚する新しい多粒度知覚ネットワーク(MGPN)を提案する。
具体的には、モーメント検索を多選択読解タスクとして定式化し、人間の読解戦略をフレームワークに統合する。
論文 参考訳(メタデータ) (2022-05-25T16:15:46Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。