論文の概要: CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
- arxiv url: http://arxiv.org/abs/2506.06144v1
- Date: Fri, 06 Jun 2025 15:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.526588
- Title: CLaMR: Contextualized Late-Interaction for Multimodal Content Retrieval
- Title(参考訳): CLaMR: マルチモーダルコンテンツ検索のためのコンテキスト化遅延インタラクション
- Authors: David Wan, Han Wang, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal,
- Abstract要約: CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは2つの重要な革新を通じて動的モダリティ選択を強化するために訓練されている。
- 参考スコア(独自算出の注目度): 70.9990850395981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online video web content is richly multimodal: a single video blends vision, speech, ambient audio, and on-screen text. Retrieval systems typically treat these modalities as independent retrieval sources, which can lead to noisy and subpar retrieval. We explore multimodal video content retrieval, where relevance can be scored from one particular modality or jointly across multiple modalities simultaneously. Consequently, an effective retriever must dynamically choose which modality (or set of modalities) best addresses the query. We introduce CLaMR, a multimodal, late-interaction retriever that jointly indexes 4 modalities: video frames, transcribed speech, on-screen text, and metadata. CLaMR jointly encodes all modalities with a unified multimodal backbone for improved contextualization and is trained to enhance dynamic modality selection via two key innovations. First, given the lack of training data for multimodal retrieval, we introduce MultiVENT 2.0++, a large-scale synthetic training dataset built on MultiVENT 2.0 (event-centric videos in various languages paired with queries) with modality-targeted queries. Next, we propose a modality-aware loss that jointly trains according to a standard contrastive objective alongside an objective for learning correct modality usage. On the test sets of MultiVENT 2.0++ and MSRVTT, conventional aggregation strategies, such as averaging similarities for baseline retrievers, degrade performance by introducing noise from irrelevant modalities. In contrast, CLaMR consistently outperforms existing retrievers: on MultiVENT 2.0++, CLaMR improves nDCG@10 by 25.6 over the best single-modality retriever and by 35.4 over the best multi-modality retriever. We illustrate CLaMR's downstream utility on long-video QA, retrieving relevant frames and obtaining a 3.50% boost over LanguageBind on Video-MME and 1.42% over dense sampling on LongVideoBench.
- Abstract(参考訳): オンラインビデオウェブコンテンツはマルチモーダルで、視覚、スピーチ、周囲のオーディオ、画面上のテキストをブレンドする。
検索システムは一般的にこれらのモダリティを独立した検索源として扱い、ノイズやサブパー検索につながる可能性がある。
マルチモーダルビデオコンテンツ検索について検討し、ある特定のモーダルから関連性を得るか、複数のモーダルを同時に共有する。
したがって、有効な検索者は、どのモダリティ(またはモダリティの集合)がクエリに最も適しているかを動的に選択する必要がある。
CLaMRは、ビデオフレーム、書き起こされた音声、画面上のテキスト、メタデータの4つのモダリティを共同でインデックスするマルチモーダルな遅延相互作用レトリバーである。
CLaMRは、コンテキスト化を改善するために統一されたマルチモーダルバックボーンで全てのモダリティを共同で符号化し、2つの重要な革新を通じて動的モダリティ選択を強化するよう訓練されている。
まず、マルチモーダル検索のためのトレーニングデータが不足していることを踏まえ、MultiVENT 2.0++を紹介します。
次に,正当性学習の目的と並行して,標準コントラスト目標に従って協調訓練を行うモダリティ認識損失を提案する。
MultiVENT 2.0++とMSRVTTのテストセットでは、ベースラインレトリバーの類似性を平均化するような従来のアグリゲーション戦略は、無関係なモダリティからノイズを導入することで性能を低下させる。
対照的にCLaMRは、MultiVENT 2.0++では、最高のシングルモダリティレトリバーよりもnDCG@10を25.6改善し、最高のマルチモダリティレトリバーよりも35.4改善している。
CLaMRのダウンストリームユーティリティをビデオQAで説明し、関連するフレームを検索し、LanguageBindをビデオMMEで3.50%、LongVideoBenchで高密度サンプリングで1.42%向上させる。
関連論文リスト
- MMMORRF: Multimodal Multilingual Modularized Reciprocal Rank Fusion [43.725594356981254]
視覚と音声の両モードからテキストや特徴を抽出する検索システムを構築した。
MMMORRFは効率的かつ効果的であり、ユーザの情報要求に基づいてビデオ検索の実用性を示す。
論文 参考訳(メタデータ) (2025-03-26T16:28:04Z) - MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs [78.5013630951288]
本稿では,マルチモーダル大言語モデル(MLLM)を用いた情報検索手法を提案する。
まず,16個の検索タスクを持つ10個のデータセットに対して,MLLMをバイエンコーダレトリバーとして微調整する。
我々のモデルMM-Embedはマルチモーダル検索ベンチマークM-BEIR上で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-04T20:06:34Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval [34.343617836027725]
本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
論文 参考訳(メタデータ) (2022-08-16T10:51:37Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。