論文の概要: LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant
- arxiv url: http://arxiv.org/abs/2412.01720v1
- Date: Mon, 02 Dec 2024 17:10:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:55.863552
- Title: LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant
- Title(参考訳): LamRA: 高度な検索アシスタントとしての大型マルチモーダルモデル
- Authors: Yikun Liu, Pingan Chen, Jiayin Cai, Xiaolong Jiang, Yao Hu, Jiangchao Yao, Yanfeng Wang, Weidi Xie,
- Abstract要約: LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
- 参考スコア(独自算出の注目度): 63.28378110792787
- License:
- Abstract: With the rapid advancement of multimodal information retrieval, increasingly complex retrieval tasks have emerged. Existing methods predominately rely on task-specific fine-tuning of vision-language models, often those trained with image-text contrastive learning. In this paper, we explore the possibility of re-purposing generative Large Multimodal Models (LMMs) for retrieval. This approach enables unifying all retrieval tasks under the same formulation and, more importantly, allows for extrapolation towards unseen retrieval tasks without additional training. Our contributions can be summarised in the following aspects: (i) We introduce LamRA, a versatile framework designed to empower LMMs with sophisticated retrieval and reranking capabilities. (ii) For retrieval, we adopt a two-stage training strategy comprising language-only pre-training and multimodal instruction tuning to progressively enhance LMM's retrieval performance. (iii) For reranking, we employ joint training for both pointwise and listwise reranking, offering two distinct ways to further boost the retrieval performance. (iv) Extensive experimental results underscore the efficacy of our method in handling more than ten retrieval tasks, demonstrating robust performance in both supervised and zero-shot settings, including scenarios involving previously unseen retrieval tasks.
- Abstract(参考訳): マルチモーダル情報検索の急速な進歩に伴い、ますます複雑な検索タスクが出現している。
既存の手法はタスク固有の視覚言語モデルの微調整に依存しており、しばしば画像テキストのコントラスト学習で訓練される。
本稿では,LMM(Large Multimodal Models)の再資源化の可能性について検討する。
このアプローチは、同じ定式化の下で全ての検索タスクを統一することを可能にし、さらに重要なことは、追加のトレーニングなしで未確認の検索タスクへの外挿を可能にする。
私たちの貢献は以下の点にまとめることができる。
(i)LamRAはLMMに洗練された検索機能と再ランク機能を持たせるために設計された汎用フレームワークである。
2)検索には,言語のみの事前学習とマルチモーダル・インストラクション・チューニングを組み合わせた2段階の学習戦略を採用し,LMMの検索性能を漸進的に向上させる。
3) 再位には, ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し, 検索性能をさらに向上させる2つの方法を提供している。
4) 広範囲な実験結果から,10以上の検索タスクを処理し,教師付きおよびゼロショット設定の両方で頑健な性能を実証し,これまで見つからなかった検索タスクを含むシナリオについて,本手法の有効性を実証した。
関連論文リスト
- MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration [59.855712519568904]
本稿では,MM-ICLの中核となる3つのステップについて検討する。
本研究は, 実演検索におけるマルチモーダルレトリバーの必要性と, 演目間注文よりも演目内注文が重要であることを明らかにする。
論文 参考訳(メタデータ) (2024-10-27T15:37:51Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - ModalPrompt:Dual-Modality Guided Prompt for Continual Learning of Large Multimodal Models [40.7613157799378]
大規模マルチモーダルモデル(LMM)は、混合データセットを共同で学習することで、顕著なマルチタスク能力を示す。
既存の手法はデータ再生やモデル拡張を利用しており、どちらもLMM用に特別に開発されていない。
本稿では,マルチモーダル連続学習に適した新しいデュアルモーダル誘導型プロンプト学習フレームワーク(ModalPrompt)を提案する。
論文 参考訳(メタデータ) (2024-10-08T09:35:37Z) - Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment [16.39696580487218]
BERTやT5のような事前訓練された言語モデルは、高密度検索のための重要なバックボーンエンコーダとして機能する。
近年,大規模言語モデル (LLM) をレトリバーとして使用し,様々なタスクでSOTA性能を達成している。
論文 参考訳(メタデータ) (2024-08-22T08:16:07Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Variational Multi-Task Learning with Gumbel-Softmax Priors [105.22406384964144]
マルチタスク学習は、タスク関連性を探究し、個々のタスクを改善することを目的としている。
本稿では,複数のタスクを学習するための一般的な確率的推論フレームワークである変分マルチタスク学習(VMTL)を提案する。
論文 参考訳(メタデータ) (2021-11-09T18:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。