論文の概要: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
- arxiv url: http://arxiv.org/abs/2402.08327v1
- Date: Tue, 13 Feb 2024 09:47:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:53:09.135525
- Title: PreFLMR: Scaling Up Fine-Grained Late-Interaction Multi-modal Retrievers
- Title(参考訳): PreFLMR: 微細粒遅延反応型マルチモーダルリトリーバーのスケールアップ
- Authors: Weizhe Lin, Jingbiao Mei, Jinghong Chen, Bill Byrne
- Abstract要約: 知識に基づく視覚質問応答(KB-VQA)のための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。
我々はM2KRを用いて、KB-VQAに対する最近開発された細粒化遅延作用型マルチモーダルレトリバー(FLMR)の事前学習版であるPreFLMRを開発した。
- 参考スコア(独自算出の注目度): 16.04528975228973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) excel in natural language and visual
understanding but are challenged by exacting tasks such as Knowledge-based
Visual Question Answering (KB-VQA) which involve the retrieval of relevant
information from document collections to use in shaping answers to questions.
We present an extensive training and evaluation framework, M2KR, for KB-VQA.
M2KR contains a collection of vision and language tasks which we have
incorporated into a single suite of benchmark tasks for training and evaluating
general-purpose multi-modal retrievers. We use M2KR to develop PreFLMR, a
pre-trained version of the recently developed Fine-grained Late-interaction
Multi-modal Retriever (FLMR) approach to KB-VQA, and we report new
state-of-the-art results across a range of tasks. We also present
investigations into the scaling behaviors of PreFLMR intended to be useful in
future developments in general-purpose multi-modal retrievers.
- Abstract(参考訳): LMM(Large Multimodal Models)は、自然言語や視覚的理解に優れるが、知識に基づく視覚質問回答(KB-VQA)のような、質問に対する回答を形作るために文書コレクションから関連する情報を検索するタスクによって、課題が解決される。
KB-VQAのための広範囲なトレーニングおよび評価フレームワークM2KRを提案する。
M2KRにはビジョンと言語タスクの集合が含まれており、汎用マルチモーダルレトリバーのトレーニングと評価のためのベンチマークタスクの一式に組み込まれています。
我々はM2KRを用いて、KB-VQAに対する最近開発された細粒度ラテン・アクション・マルチモーダル・レトリバー(FLMR)アプローチの事前訓練版であるPreFLMRを開発した。
また, 汎用マルチモーダルレトリバーの開発に有用なPreFLMRのスケーリング挙動について検討した。
関連論文リスト
- Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering [11.244643114253773]
Video Question(ビデオQA)は、ビデオで観察される情報に基づいて、自然言語の質問に答えることを目的としている。
視覚的な入力として疑問クリティカルな瞬間に答えを推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T14:21:46Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - MM-BigBench: Evaluating Multimodal Models on Multimodal Content
Comprehension Tasks [56.60050181186531]
MM-BigBenchを導入し、様々なモデルや命令のパフォーマンスを広範囲に評価する。
本稿では,6タスクにまたがる14のマルチモーダルデータセット上で,20の言語モデル (14 MLLM) を評価し,各タスクに10の指示を与え,新しい洞察を導き出す。
論文 参考訳(メタデータ) (2023-10-13T11:57:04Z) - Multimodal Question Answering for Unified Information Extraction [15.798187192290746]
マルチモーダル情報抽出は、構造化されていないマルチメディアコンテンツから構造化された情報を抽出することを目的としている。
現在のMIEモデルはタスク固有でデータ集約である。
3つのMIEタスクを統合するための新しいマルチモーダル質問応答(MQA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-04T17:58:05Z) - Fine-grained Late-interaction Multi-modal Retrieval for Retrieval
Augmented Visual Question Answering [56.96857992123026]
知識に基づくビジュアル質問回答 (KB-VQA) では、外部知識ベースからの知識を活用して視覚的に座屈した質問に答えるためにVQAシステムが必要である。
本稿では,RA-VQAにおける知識検索を大幅に改善する,微粒な遅延相互作用型マルチモーダル検索(FLMR)を提案する。
論文 参考訳(メタデータ) (2023-09-29T10:54:10Z) - MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities [159.9847317300497]
複雑なマルチモーダルタスクにおける大規模マルチモーダルモデル(LMM)を評価する評価ベンチマークであるMM-Vetを提案する。
近年のLMMは、黒板に書かれた数学の問題を解くこと、ニュース画像の出来事や有名人を推論すること、視覚的ジョークを説明することなど、様々な興味深い能力を示している。
論文 参考訳(メタデータ) (2023-08-04T17:59:47Z) - MIMIC-IT: Multi-Modal In-Context Instruction Tuning [44.879418596312554]
本稿では,280万のマルチモーダル・インストラクション・レスポンス・ペアからなるデータセットについて述べる。
MIMIC-ITデータセットを用いて、Otterはマルチモーダル認識、推論、文脈内学習において顕著な習熟度を示した。
我々はMIMIC-ITデータセット、命令応答型コレクションパイプライン、ベンチマーク、オッターモデルをリリースする。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Combining Deep Neural Reranking and Unsupervised Extraction for
Multi-Query Focused Summarization [0.30458514384586394]
CrisisFACTS Trackは、イベントトラッキングの領域におけるマルチストリームファクトフィニングのような課題に対処することを目的としている。
本稿では,Linear Programming (ILP) とMaximal Marginal Relevance (MMR) フレームワークの検索,再評価,統合の組み合わせを提案する。
論文 参考訳(メタデータ) (2023-02-02T15:08:25Z) - Single-Modal Entropy based Active Learning for Visual Question Answering [75.1682163844354]
視覚質問応答(VQA)のマルチモーダル設定におけるアクティブラーニングに対処する
マルチモーダルな入力,画像,質問を考慮し,有効サンプル取得のための新しい手法を提案する。
私たちの新しいアイデアは、実装が簡単で、コスト効率が高く、他のマルチモーダルタスクにも容易に適応できます。
論文 参考訳(メタデータ) (2021-10-21T05:38:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。