論文の概要: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
- arxiv url: http://arxiv.org/abs/2402.08327v2
- Date: Wed, 5 Jun 2024 11:46:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 01:21:50.746937
- Title: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
- Title(参考訳): PreFLMR: 微細粒遅延反応型マルチモーダルリトリーバーのスケールアップ
- Authors: Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne,
- Abstract要約: 知識に基づく視覚質問応答(KB-VQA)のための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。
我々はM2KRを用いて、KB-VQAに対する最近開発された細粒化遅延作用型マルチモーダルレトリバー(FLMR)の事前学習版であるPreFLMRを開発した。
- 参考スコア(独自算出の注目度): 14.687729896211584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) excel in natural language and visual understanding but are challenged by exacting tasks such as Knowledge-based Visual Question Answering (KB-VQA) which involve the retrieval of relevant information from document collections to use in shaping answers to questions. We present an extensive training and evaluation framework, M2KR, for KB-VQA. M2KR contains a collection of vision and language tasks which we have incorporated into a single suite of benchmark tasks for training and evaluating general-purpose multi-modal retrievers. We use M2KR to develop PreFLMR, a pre-trained version of the recently developed Fine-grained Late-interaction Multi-modal Retriever (FLMR) approach to KB-VQA, and we report new state-of-the-art results across a range of tasks. We also present investigations into the scaling behaviors of PreFLMR intended to be useful in future developments in general-purpose multi-modal retrievers.
- Abstract(参考訳): LMM(Large Multimodal Models)は、自然言語や視覚的理解に優れるが、知識に基づく視覚質問回答(KB-VQA)のような、質問に対する回答を形作るために文書コレクションから関連する情報を検索するタスクによって、課題が解決される。
KB-VQAのための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。
M2KRにはビジョンと言語タスクの集合が含まれており、汎用マルチモーダルレトリバーのトレーニングと評価のために、単一のベンチマークタスクに組み込まれています。
我々はM2KRを用いて、KB-VQAに対する最近開発された細粒度ラテン・アクション・マルチモーダル・レトリバー(FLMR)アプローチの事前訓練版であるPreFLMRを開発した。
また, 汎用マルチモーダルレトリバーの開発に有用なPreFLMRのスケーリング挙動について検討した。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - LRQ-Fact: LLM-Generated Relevant Questions for Multimodal Fact-Checking [14.647261841209767]
マルチモーダルなファクトチェックのための完全自動フレームワークLRQ-Factを提案する。
マルチモーダルコンテンツを探索するための総合的な質問や回答を生成する。
そして、元のコンテンツと生成された質問と回答の両方を評価し、全体的な妥当性を評価する。
論文 参考訳(メタデータ) (2024-10-06T20:33:22Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。