論文の概要: Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval
- arxiv url: http://arxiv.org/abs/2503.01980v1
- Date: Mon, 03 Mar 2025 19:01:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 18:50:38.49411
- Title: Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval
- Title(参考訳): 頑健なマルチモーダル文書検索のための再帰性向上型ビジョン・アンド・ランゲージ変換器
- Authors: Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara,
- Abstract要約: クロスモーダル検索は研究コミュニティから有効性や関心が増している。
本稿では,画像とテキストの両方からなるマルチモーダルクエリを実現するアプローチを設計する。
我々のモデルであるReTは、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を用いる。
- 参考スコア(独自算出の注目度): 44.008094698200026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal retrieval is gaining increasing efficacy and interest from the research community, thanks to large-scale training, novel architectural and learning designs, and its application in LLMs and multimodal LLMs. In this paper, we move a step forward and design an approach that allows for multimodal queries, composed of both an image and a text, and can search within collections of multimodal documents, where images and text are interleaved. Our model, ReT, employs multi-level representations extracted from different layers of both visual and textual backbones, both at the query and document side. To allow for multi-level and cross-modal understanding and feature extraction, ReT employs a novel Transformer-based recurrent cell that integrates both textual and visual features at different layers, and leverages sigmoidal gates inspired by the classical design of LSTMs. Extensive experiments on M2KR and M-BEIR benchmarks show that ReT achieves state-of-the-art performance across diverse settings. Our source code and trained models are publicly available at https://github.com/aimagelab/ReT.
- Abstract(参考訳): クロスモーダル検索は、大規模トレーニング、新しい建築・学習設計、およびLLMおよびマルチモーダルLLMへの応用により、研究コミュニティからの有効性と関心が増している。
本稿では,画像とテキストの両方で構成されたマルチモーダルクエリを実現し,画像とテキストがインターリーブされたマルチモーダルドキュメントのコレクション内を探索するアプローチを,一歩前進して設計する。
我々のモデルであるReTでは、クエリ側とドキュメント側の両方で、視覚とテキストの両方のバックボーンの異なるレイヤから抽出されたマルチレベル表現を採用しています。
マルチレベルおよびクロスモーダルな理解と特徴抽出を可能にするため、ReTはトランスフォーマーベースの新しいリカレントセルを採用し、異なる層におけるテキストと視覚の両方の特徴を統合し、LSTMの古典的な設計にインスパイアされたシグモダルゲートを活用する。
M2KRとM-BEIRのベンチマークによる大規模な実験により、ReTは様々な設定で最先端のパフォーマンスを達成することが示された。
ソースコードとトレーニングされたモデルはhttps://github.com/aimagelab/ReT.comで公開されています。
関連論文リスト
- Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.30364248231053]
本稿では,M2RAG(Multi-Modal Retrieval-Augmented Generation)を紹介する。
M2RAGはマルチモーダル大言語モデル(MLLM)の有効性を評価するためのベンチマークである。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Beyond Text: Optimizing RAG with Multimodal Inputs for Industrial Applications [3.7636375810345744]
大きな言語モデル(LLM)は、質問に答える際、印象的な能力を示してきたが、それらはドメイン固有の知識に欠け、幻覚を起こす傾向がある。
Retrieval Augmented Generation(RAG)は、これらの課題に対処するためのアプローチのひとつであり、マルチモーダルモデルは、テキストとイメージの両方を処理するための有望なAIアシスタントとして現れている。
本稿では,産業領域のRAGシステムにマルチモーダルモデルをどのように組み込むかを決定するための一連の実験について述べる。
論文 参考訳(メタデータ) (2024-10-29T11:03:31Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - Multi-modal Generation via Cross-Modal In-Context Learning [50.45304937804883]
複雑なマルチモーダルプロンプトシーケンスから新しい画像を生成するMGCC法を提案する。
我々のMGCCは、新しい画像生成、マルチモーダル対話の促進、テキスト生成など、多種多様なマルチモーダル機能を示している。
論文 参考訳(メタデータ) (2024-05-28T15:58:31Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Multi-modal Semantic Understanding with Contrastive Cross-modal Feature
Alignment [11.897888221717245]
マルチモーダルな特徴アライメントを実現するためのCLIP誘導型コントラスト学習型アーキテクチャを提案する。
我々のモデルはタスク固有の外部知識を使わずに実装が簡単であり、そのため、他のマルチモーダルタスクに容易に移行できる。
論文 参考訳(メタデータ) (2024-03-11T01:07:36Z) - Multi-Perspective LSTM for Joint Visual Representation Learning [81.21490913108835]
複数の視点から捉えた視覚的シーケンスで利用可能な内的および対外的関係を学習できる新しいLSTM細胞アーキテクチャを提案する。
私たちのアーキテクチャは、細胞レベルで追加のゲートと記憶を使用する新しい繰り返し共同学習戦略を採用しています。
提案するセルを用いてネットワークを構築することにより、より効果的でリッチな視覚的表現が認識タスクで学習されることを示す。
論文 参考訳(メタデータ) (2021-05-06T16:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。