論文の概要: Composed Multi-modal Retrieval: A Survey of Approaches and Applications
- arxiv url: http://arxiv.org/abs/2503.01334v1
- Date: Mon, 03 Mar 2025 09:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:55.892400
- Title: Composed Multi-modal Retrieval: A Survey of Approaches and Applications
- Title(参考訳): 構成型マルチモーダル検索:アプローチと応用に関する調査
- Authors: Kun Zhang, Jingyu Li, Zhe Li, Jingjing Zhang,
- Abstract要約: Composed Multi-modal Retrieval (CMR) では、参照視覚入力とテキスト修正を統合することで、画像やビデオを検索することができる。
CMRは次世代の検索システムにおいて重要な技術になりつつある。
- 参考スコア(独自算出の注目度): 17.316062338546544
- License:
- Abstract: With the rapid growth of multi-modal data from social media, short video platforms, and e-commerce, content-based retrieval has become essential for efficiently searching and utilizing heterogeneous information. Over time, retrieval techniques have evolved from Unimodal Retrieval (UR) to Cross-modal Retrieval (CR) and, more recently, to Composed Multi-modal Retrieval (CMR). CMR enables users to retrieve images or videos by integrating a reference visual input with textual modifications, enhancing search flexibility and precision. This paper provides a comprehensive review of CMR, covering its fundamental challenges, technical advancements, and categorization into supervised, zero-shot, and semi-supervised learning paradigms. We discuss key research directions, including data augmentation, model architecture, and loss optimization in supervised CMR, as well as transformation frameworks and external knowledge integration in zero-shot CMR. Additionally, we highlight the application potential of CMR in composed image retrieval, video retrieval, and person retrieval, which have significant implications for e-commerce, online search, and public security. Given its ability to refine and personalize search experiences, CMR is poised to become a pivotal technology in next-generation retrieval systems. A curated list of related works and resources is available at: https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrieval
- Abstract(参考訳): ソーシャルメディア、ショートビデオプラットフォーム、eコマースからのマルチモーダルデータの急速な増加に伴い、コンテンツベースの検索は異種情報の効率的な検索・活用に欠かせないものとなっている。
時間とともに、検索技術はユニモーダル検索 (UR) からクロスモーダル検索 (CR) へと発展し、最近ではコンポジション・マルチモーダル検索 (CMR) へと発展していった。
CMRは、参照視覚入力をテキスト修正と統合し、検索の柔軟性と精度を向上させることで、画像やビデオの検索を可能にする。
本稿では, CMRの基本的課題, 技術的進歩, 分類を, 教師付き, ゼロショット, セミ教師付き学習パラダイムにまとめて紹介する。
我々は、教師付きCMRにおけるデータ拡張、モデルアーキテクチャ、損失最適化、およびゼロショットCMRにおける変換フレームワークと外部知識の統合など、主要な研究方向性について論じる。
さらに, 合成画像検索, ビデオ検索, 人物検索におけるCMRの適用可能性を強調し, 電子商取引, オンライン検索, 公共セキュリティに重要な影響を与える。
検索体験を洗練・パーソナライズする能力を考えると、CMRは次世代検索システムにおいて重要な技術になりつつある。
関連する作業とリソースのキュレートされたリストは、https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrievalで公開されている。
関連論文リスト
- Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。
クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。
この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文 参考訳(メタデータ) (2025-02-12T22:33:41Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。
MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。
本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文 参考訳(メタデータ) (2024-07-05T02:01:49Z) - Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。
RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。
これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-31T14:23:49Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。
本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。
実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文 参考訳(メタデータ) (2023-02-08T05:12:54Z) - A Comprehensive Empirical Study of Vision-Language Pre-trained Model for
Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。
私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。
本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文 参考訳(メタデータ) (2022-01-08T06:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。