Fugu-MT 論文翻訳(概要): Composed Multi-modal Retrieval: A Survey of Approaches and Applications

論文の概要: Composed Multi-modal Retrieval: A Survey of Approaches and Applications

arxiv url: http://arxiv.org/abs/2503.01334v2
Date: Sat, 19 Jul 2025 17:16:52 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-22 14:33:31.94361
Title: Composed Multi-modal Retrieval: A Survey of Approaches and Applications
Title（参考訳）: 構成型マルチモーダル検索:アプローチと応用に関する調査
Authors: Kun Zhang, Jingyu Li, Zhe Li, Jingjing Zhang, Fan Li, Yandong Liu, Rui Yan, Zihang Jiang, Nan Chen, Lei Zhang, Yongdong Zhang, Zhendong Mao, S. Kevin Zhou,
Abstract要約: 複合マルチモーダル検索(CMR)は次世代技術として誕生する。 CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
参考スコア（独自算出の注目度）: 81.54640206021757
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The burgeoning volume of multi-modal data necessitates advanced retrieval paradigms beyond unimodal and cross-modal approaches. Composed Multi-modal Retrieval (CMR) emerges as a pivotal next-generation technology, enabling users to query images or videos by integrating a reference visual input with textual modifications, thereby achieving unprecedented flexibility and precision. This paper provides a comprehensive survey of CMR, covering its fundamental challenges, technical advancements, and applications. CMR is categorized into supervised, zero-shot, and semi-supervised learning paradigms. We discuss key research directions, including data construction, model architecture, and loss optimization in supervised CMR, as well as transformation frameworks and linear integration in zero-shot CMR, and semi-supervised CMR that leverages generated pseudo-triplets while addressing data noise/uncertainty. Additionally, we extensively survey the diverse application landscape of CMR, highlighting its transformative potential in e-commerce, social media, search engines, public security, etc. Seven high impact application scenarios are explored in detail with benchmark data sets and performance analysis. Finally, we further provide new potential research directions with the hope of inspiring exploration in other yet-to-be-explored fields. A curated list of works is available at: https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrieval
Abstract（参考訳）: マルチモーダルデータの膨大化は、非モーダルおよびクロスモーダルアプローチを超えた高度な検索パラダイムを必要とする。 Composed Multi-modal Retrieval (CMR) は、ユーザが参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリできる重要な次世代技術として登場し、前例のない柔軟性と精度を達成する。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。 CMRは、教師付き、ゼロショット、セミ教師付き学習パラダイムに分類される。我々は、教師付きCMRにおけるデータ構築、モデルアーキテクチャ、損失最適化、およびゼロショットCMRにおける変換フレームワークと線形統合、およびデータノイズ/不確実性に対処しながら生成された擬似トリップを活用する半教師付きCMRなど、重要な研究方向性について論じる。さらに、我々は、CMRの多様なアプリケーション環境を広範囲に調査し、eコマース、ソーシャルメディア、検索エンジン、公開セキュリティなどの変革の可能性を強調します。ベンチマークデータセットとパフォーマンス分析で7つの大きな影響のあるアプリケーションシナリオが詳細に調査されている。最後に、まだ探索されていない他の分野の探索を刺激し、新たな研究の方向性を提供する。 https://github.com/kkzhang95/Awesome-Composed-Multi-modal-Retrieval

関連論文リスト

Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
Universal Retrieval for Multimodal Trajectory Modeling [12.160448446091607]
軌道データは、AIエージェント能力を向上する大きな可能性を秘めている。本稿では,ユニバーサル検索とエージェント中心軌道モデリングのギャップを埋めるマルチモーダル軌道検索手法を提案する。
論文参考訳（メタデータ） (2025-06-27T09:50:38Z)
Modality Curation: Building Universal Embeddings for Advanced Multimodal Information Retrieval [30.98084422803278]
データキュレーションやモダリティ対応のトレーニング設定を通じて課題に取り組む普遍的なフレームワークであるUNITEを紹介する。我々の研究は、モダリティ固有のデータプロパティがダウンストリームタスクのパフォーマンスにどのように影響するかを、初めて包括的に分析する。提案フレームワークは,複数のマルチモーダル検索ベンチマークにおいて最先端の結果を達成し,既存の手法を顕著なマージンで上回っている。
論文参考訳（メタデータ） (2025-05-26T08:09:44Z)
MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳（メタデータ） (2025-03-11T05:02:03Z)
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation [2.549112678136113]
Retrieval-Augmented Generation (RAG) は、外部の動的情報を統合することで問題を緩和する。クロスモーダルアライメントと推論はMultimodal RAGに固有の課題をもたらし、従来の単調なRAGと区別する。この調査は、より有能で信頼性の高いAIシステムを開発するための基盤となる。
論文参考訳（メタデータ） (2025-02-12T22:33:41Z)
A Survey on Multimodal Recommender Systems: Recent Advances and Future Directions [16.652996189513658]
本稿では, マルチモーダルレコメンダシステムにおける最近の研究動向を概観する。本稿では,既存のMSSモデルを特徴抽出,マルチモーダルフュージョン,ロス関数の4つの重要な領域に分類して紹介する。より高度で効果的なマルチモーダルレコメンデータシステムの開発に貢献したいと考えています。
論文参考訳（メタデータ） (2025-01-22T12:00:35Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
From Linguistic Giants to Sensory Maestros: A Survey on Cross-Modal Reasoning with Large Language Models [56.9134620424985]
クロスモーダル推論(CMR)は、より高度な人工知能システムへの進化における重要な能力として、ますます認識されている。 CMRタスクに取り組むためにLLM(Large Language Models)をデプロイする最近のトレンドは、その有効性を高めるためのアプローチの新たな主流となっている。本調査では,LLMを用いてCMRで適用された現在の方法論を,詳細な3階層分類に分類する。
論文参考訳（メタデータ） (2024-09-19T02:51:54Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
An Interactive Multi-modal Query Answering System with Retrieval-Augmented Large Language Models [21.892975397847316]
本稿では,新たに開発したマルチモーダル検索フレームワークとナビゲーショングラフインデックスを用いて,対話型マルチモーダルクエリ・アンサーリング(MQA)システムを提案する。 MQAの特筆すべき点は、異なるモダリティの重要性を評価するために、コントラスト学習を利用することである。本システムは,計算プルーニング技術を用いて改良した,先進的なナビゲーショングラフインデックスによる効率的な検索を実現する。
論文参考訳（メタデータ） (2024-07-05T02:01:49Z)
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning [49.3242278912771]
RMR(Retrieval Meets Reasoning)と呼ばれる新しいマルチモーダルRAGフレームワークについて紹介する。 RMRフレームワークは、最も関連性の高い問合せ対を特定するために、バイモーダル検索モジュールを使用する。これは、ベンチマークデータセットのスペクトルにわたって様々なビジョン言語モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2024-05-31T14:23:49Z)
An Empirical Study of Training ID-Agnostic Multi-modal Sequential Recommenders [3.1093882314734285]
Sequential Recommendation (SR) は、過去のインタラクションに基づいて、将来のユーザとイテムのインタラクションを予測することを目的としている。多くのSRアプローチはユーザIDとアイテムIDに重点を置いているが、テキストや画像のようなマルチモーダル信号を通じて世界に対する人間の認識は、研究者にIDを使わずにマルチモーダル情報からSRを構築するよう促している。本稿では,シンプルで普遍的なtextbfMulti-textbfModal textbfSequential textbfRecommendation (textbfMMSR) フレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T04:16:57Z)
A Survey on Interpretable Cross-modal Reasoning [64.37362731950843]
マルチメディア分析から医療診断に至るまで、クロスモーダル推論(CMR)が重要な分野として浮上している。この調査は、解釈可能なクロスモーダル推論(I-CMR)の領域を掘り下げる本調査では,I-CMRの3段階分類法について概説する。
論文参考訳（メタデータ） (2023-09-05T05:06:48Z)
End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文参考訳（メタデータ） (2023-06-01T08:04:12Z)
Synergistic Interplay between Search and Large Language Models for Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。 InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文参考訳（メタデータ） (2023-05-12T11:58:15Z)
Multimodal Recommender Systems: A Survey [50.23505070348051]
マルチモーダル・レコメンダ・システム(MRS)は近年,学界と産業の両方から注目を集めている。本稿では,主に技術的観点から,MSSモデルに関する総合的な調査を行う。実装コードなど、調査された論文の詳細にアクセスするために、リポジトリをオープンソース化します。
論文参考訳（メタデータ） (2023-02-08T05:12:54Z)
A Comprehensive Empirical Study of Vision-Language Pre-trained Model for Supervised Cross-Modal Retrieval [19.2650103482509]
CMR(Cross-Modal Retrieval)はマルチモーダルコンピューティングと情報検索における重要な研究トピックである。私たちはCLIPを現在の視覚言語事前訓練モデルとして、総合的な実証的研究を行う。本稿では,プレトレーニングCLIPをバックボーンネットワークとして利用し,教師付きCMRを実現する新しいモデルCLIP4CMRを提案する。
論文参考訳（メタデータ） (2022-01-08T06:00:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。