論文の概要: MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2411.08334v2
- Date: Mon, 17 Feb 2025 01:49:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:07:01.892576
- Title: MIRe: Enhancing Multimodal Queries Representation via Fusion-Free Modality Interaction for Multimodal Retrieval
- Title(参考訳): MIRE:マルチモーダル検索のためのフュージョンフリーモーダルインタラクションによるマルチモーダルクエリ表現の強化
- Authors: Yeong-Joon Ju, Ho-Joong Kim, Seong-Whan Lee,
- Abstract要約: 我々は、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIReを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
実験により,我々の事前学習戦略はマルチモーダルクエリの理解を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 26.585985828583304
- License:
- Abstract: Recent multimodal retrieval methods have endowed text-based retrievers with multimodal capabilities by utilizing pre-training strategies for visual-text alignment. They often directly fuse the two modalities for cross-reference during the alignment to understand multimodal queries. However, existing methods often overlook crucial visual information due to a text-dominant issue, which overly depends on text-driven signals. In this paper, we introduce MIRe, a retrieval framework that achieves modality interaction without fusing textual features during the alignment. Our method allows the textual query to attend to visual embeddings while not feeding text-driven signals back into the visual representations. Additionally, we construct a pre-training dataset for multimodal query retrieval by transforming concise question-answer pairs into extended passages. Our experiments demonstrate that our pre-training strategy significantly enhances the understanding of multimodal queries, resulting in strong performance across four multimodal retrieval benchmarks under zero-shot settings. Our code is publicly available: https://github.com/yeongjoonJu/MIRe.
- Abstract(参考訳): 近年のマルチモーダル検索手法は,視覚的テキストアライメントのための事前学習戦略を活用することで,マルチモーダル機能を備えたテキストベースの検索機能を備えている。
彼らはしばしば、アライメント中に相互参照のために2つのモダリティを直接融合して、マルチモーダルクエリを理解する。
しかし、既存の手法では、テキスト駆動信号に過度に依存するテキスト優位の問題により、重要な視覚情報を見落としてしまうことが多い。
本稿では、アライメント中にテキストの特徴を融合させることなく、モダリティインタラクションを実現する検索フレームワークMIREを紹介する。
提案手法では,テキスト駆動型信号を視覚表現に戻すことなく,テキストクエリを視覚埋め込みに対応させることができる。
さらに、簡潔な問合せ対を拡張経路に変換することで、マルチモーダルな問合せ検索のための事前学習データセットを構築する。
実験により,事前学習戦略によりマルチモーダルクエリの理解が著しく向上し,ゼロショット設定下での4つのマルチモーダル検索ベンチマークにおいて高い性能が得られた。
私たちのコードは、https://github.com/yeongjoonJu/MIRE.comで公開されています。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding [11.004677535859342]
本稿では,Multi-turn Multi-modal Clarifying Questions (MMCQ)タスクを紹介する。
MMCQはテキストと視覚のモダリティを組み合わせて、マルチターン会話でユーザクエリを洗練させる。
マルチターンマルチモーダルの明確化はユニモーダルとシングルターンのアプローチよりも優れ、MRRを12.88%向上させることを示した。
論文 参考訳(メタデータ) (2025-02-17T04:58:14Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々は,MLLMレトリバーが提示するモダリティバイアスを軽減するために,モダリティを考慮したハードネガティブマイニングを提案する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - Hierarchical Multi-modal Transformer for Cross-modal Long Document Classification [74.45521856327001]
階層構造テキストと埋め込み画像で長い文書を分類する方法は、新しい問題である。
本稿では,階層型マルチモーダル変換器 (HMT) を用いたクロスモーダルな文書分類手法を提案する。
本稿では,マルチモーダル変換器と動的マルチスケールマルチモーダル変換器を用いて,画像特徴とセクションと文特徴の複雑な関係をモデル化する。
論文 参考訳(メタデータ) (2024-07-14T07:12:25Z) - VISTA: Visualized Text Embedding For Universal Multi-Modal Retrieval [10.603148564713518]
汎用マルチモーダル検索のための新しい埋め込みモデルVISTAを提案する。
画像理解機能を備えた強力なテキストエンコーダを拡張するフレキシブルアーキテクチャを導入する。
第2に,埋め込みモデルのトレーニングを容易にするために,高品質な合成画像テキストを提供する2つのデータ生成戦略を開発する。
論文 参考訳(メタデータ) (2024-06-06T17:37:47Z) - Multi-modal Stance Detection: New Datasets and Model [56.97470987479277]
テキストと画像からなるツイートに対するマルチモーダル姿勢検出について検討する。
我々は、シンプルで効果的なマルチモーダル・プロンプト・チューニング・フレームワーク(TMPT)を提案する。
TMPTはマルチモーダル姿勢検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-02-22T05:24:19Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - CISum: Learning Cross-modality Interaction to Enhance Multimodal
Semantic Coverage for Multimodal Summarization [2.461695698601437]
本稿ではマルチタスク・クロスモーダル学習フレームワーク(CISum)を提案する。
視覚的意味論を得るために,テキストの内容との相関に基づいて画像から視覚的記述へと変換する。
そして、視覚的記述とテキスト内容とを融合させてテキスト要約を生成し、マルチモーダルコンテンツのセマンティクスをキャプチャする。
論文 参考訳(メタデータ) (2023-02-20T11:57:23Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。