論文の概要: Generalized Contrastive Learning for Universal Multimodal Retrieval
- arxiv url: http://arxiv.org/abs/2509.25638v1
- Date: Tue, 30 Sep 2025 01:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.379791
- Title: Generalized Contrastive Learning for Universal Multimodal Retrieval
- Title(参考訳): ユニバーサルマルチモーダル検索のための一般化コントラスト学習
- Authors: Jungsoo Lee, Janghoon Cho, Hyojin Park, Munawar Hayat, Kyuwoong Hwang, Fatih Porikli, Sungha Choi,
- Abstract要約: クロスモーダル検索モデル(例えばCLIP)は、融合した画像テキストのモダリティからなるキーを検索することで、劣化したパフォーマンスを示す。
本稿では,新たなデータセットキュレーションを必要とせずに,マルチモーダル検索性能を向上させる新しい損失定式化である汎用コントラスト学習(GCL)を提案する。
- 参考スコア(独自算出の注目度): 53.70202081784898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their consistent performance improvements, cross-modal retrieval models (e.g., CLIP) show degraded performances with retrieving keys composed of fused image-text modality (e.g., Wikipedia pages with both images and text). To address this critical challenge, multimodal retrieval has been recently explored to develop a unified single retrieval model capable of retrieving keys across diverse modality combinations. A common approach involves constructing new composed sets of image-text triplets (e.g., retrieving a pair of image and text given a query image). However, such an approach requires careful curation to ensure the dataset quality and fails to generalize to unseen modality combinations. To overcome these limitations, this paper proposes Generalized Contrastive Learning (GCL), a novel loss formulation that improves multimodal retrieval performance without the burdensome need for new dataset curation. Specifically, GCL operates by enforcing contrastive learning across all modalities within a mini-batch, utilizing existing image-caption paired datasets to learn a unified representation space. We demonstrate the effectiveness of GCL by showing consistent performance improvements on off-the-shelf multimodal retrieval models (e.g., VISTA, CLIP, and TinyCLIP) using the M-BEIR, MMEB, and CoVR benchmarks.
- Abstract(参考訳): 一貫性のあるパフォーマンス改善にもかかわらず、クロスモーダル検索モデル(例:CLIP)は、融合した画像テキストのモダリティ(例:画像とテキストの両方を持つウィキペディアページ)からなるキーを取得することで、劣化したパフォーマンスを示す。
この重要な課題に対処するため、近年、様々なモダリティの組み合わせで鍵を検索できる統一された単一検索モデルを開発するために、マルチモーダル検索が研究されている。
一般的なアプローチは、新しい合成されたイメージテキスト三重項(例えば、クエリ画像が与えられた画像とテキストのペアを取得する)を構築することである。
しかし、このようなアプローチではデータセットの品質を保証するために慎重なキュレーションが必要であり、目に見えないモダリティの組み合わせに一般化できない。
このような制約を克服するために,新たなデータセットキュレーションを必要とせず,マルチモーダル検索性能を向上させる新しい損失形式であるGeneralized Contrastive Learning (GCL)を提案する。
具体的には、GCLは、ミニバッチ内のすべてのモダリティに対するコントラスト学習を強制し、既存のイメージキャプションペア化されたデータセットを使用して、統一された表現空間を学習する。
M-BEIR,MMEB,CoVRベンチマークを用いて,市販マルチモーダル検索モデル(例えば,VISTA,CLIP,TinyCLIP)における一貫した性能向上を示すことにより,GCLの有効性を示す。
関連論文リスト
- Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - Cross-modal RAG: Sub-dimensional Text-to-Image Retrieval-Augmented Generation [16.411920699543774]
Cross-modal RAGは、クエリとイメージの両方をサブ次元のコンポーネントに分解する新しいフレームワークである。
本稿では,サブ次元スパースレトリバーと高密度レトリバーを組み合わせたハイブリッド検索手法を提案する。
MS-COCO、Flickr30K、WikiArt、CUB、ImageNet-LTの実験では、クロスモーダルRAGが検索において既存のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-05-28T04:09:49Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。