論文の概要: Composed Multi-modal Retrieval: A Survey of Approaches and Applications
- arxiv url: http://arxiv.org/abs/2503.01334v2
- Date: Sat, 19 Jul 2025 17:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 14:33:31.94361
- Title: Composed Multi-modal Retrieval: A Survey of Approaches and Applications
- Title(参考訳): 構成型マルチモーダル検索:アプローチと応用に関する調査
- Authors: Kun Zhang, Jingyu Li, Zhe Li, Jingjing Zhang, Fan Li, Yandong Liu, Rui Yan, Zihang Jiang, Nan Chen, Lei Zhang, Yongdong Zhang, Zhendong Mao, S. Kevin Zhou,
- Abstract要約: 複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
- 参考スコア(独自算出の注目度): 81.54640206021757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning volume of multi-modal data necessitates advanced retrieval paradigms beyond unimodal and cross-modal approaches. Composed Multi-modal Retrieval (CMR) emerges as a pivotal next-generation technology, enabling users to query images or videos by integrating a reference visual input with textual modifications, thereby achieving unprecedented flexibility and precision. This paper provides a comprehensive survey of CMR, covering its fundamental challenges, technical advancements, and applications. CMR is categorized into supervised, zero-shot, and semi-supervised learning paradigms. We discuss key research directions, including data construction, model architecture, and loss optimization in supervised CMR, as well as transformation frameworks and linear integration in zero-shot CMR, and semi-supervised CMR that leverages generated pseudo-triplets while addressing data noise/uncertainty. Additionally, we extensively survey the diverse application landscape of CMR, highlighting its transformative potential in e-commerce, social media, search engines, public security, etc. Seven high impact application scenarios are explored in detail with benchmark data sets and performance analysis. Finally, we further provide new potential research directions with the hope of inspiring exploration in other yet-to-be-explored fields. A curated list of works is available at: https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrieval
- Abstract(参考訳): マルチモーダルデータの膨大化は、非モーダルおよびクロスモーダルアプローチを超えた高度な検索パラダイムを必要とする。
Composed Multi-modal Retrieval (CMR) は、ユーザが参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリできる重要な次世代技術として登場し、前例のない柔軟性と精度を達成する。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
CMRは、教師付き、ゼロショット、セミ教師付き学習パラダイムに分類される。
我々は、教師付きCMRにおけるデータ構築、モデルアーキテクチャ、損失最適化、およびゼロショットCMRにおける変換フレームワークと線形統合、およびデータノイズ/不確実性に対処しながら生成された擬似トリップを活用する半教師付きCMRなど、重要な研究方向性について論じる。
さらに、我々は、CMRの多様なアプリケーション環境を広範囲に調査し、eコマース、ソーシャルメディア、検索エンジン、公開セキュリティなどの変革の可能性を強調します。
ベンチマークデータセットとパフォーマンス分析で7つの大きな影響のあるアプリケーションシナリオが詳細に調査されている。
最後に、まだ探索されていない他の分野の探索を刺激し、新たな研究の方向性を提供する。
https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrieval
関連論文リスト
- MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。
本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文 参考訳(メタデータ) (2025-03-11T05:02:03Z) - Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。
クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions [16.652996189513658]
本稿では, マルチモーダルレコメンダシステムにおける最近の研究動向を概観する。
本稿では,既存のMSSモデルを特徴抽出,マルチモーダルフュージョン,ロス関数の4つの重要な領域に分類して紹介する。
より高度で効果的なマルチモーダルレコメンデータシステムの開発に貢献したいと考えています。
論文 参考訳(メタデータ) (2025-01-22T12:00:35Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。
私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。
本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文 参考訳(メタデータ) (2022-01-08T06:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。