論文の概要: M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval
- arxiv url: http://arxiv.org/abs/2208.07664v1
- Date: Tue, 16 Aug 2022 10:51:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-28 22:11:27.778384
- Title: M2HF: Multi-level Multi-modal Hybrid Fusion for Text-Video Retrieval
- Title(参考訳): M2HF:テキスト検索のためのマルチレベルマルチモーダルハイブリッドフュージョン
- Authors: Shuo Liu, Weize Quan, Ming Zhou, Sihong Chen, Jian Kang, Zhe Zhao,
Chen Chen, Dong-Ming Yan
- Abstract要約: 本稿では,テキストクエリとビデオ中の各モダリティコンテンツ間の包括的相互作用を探索するマルチレベルマルチモーダルハイブリッドフュージョンネットワークを提案する。
私たちのフレームワークは,アンサンブルの方法とエンドツーエンドの方法を含む,2種類のトレーニング戦略を提供します。
- 参考スコア(独自算出の注目度): 34.343617836027725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Videos contain multi-modal content, and exploring multi-level cross-modal
interactions with natural language queries can provide great prominence to
text-video retrieval task (TVR). However, new trending methods applying
large-scale pre-trained model CLIP for TVR do not focus on multi-modal cues in
videos. Furthermore, the traditional methods simply concatenating multi-modal
features do not exploit fine-grained cross-modal information in videos. In this
paper, we propose a multi-level multi-modal hybrid fusion (M2HF) network to
explore comprehensive interactions between text queries and each modality
content in videos. Specifically, M2HF first utilizes visual features extracted
by CLIP to early fuse with audio and motion features extracted from videos,
obtaining audio-visual fusion features and motion-visual fusion features
respectively. Multi-modal alignment problem is also considered in this process.
Then, visual features, audio-visual fusion features, motion-visual fusion
features, and texts extracted from videos establish cross-modal relationships
with caption queries in a multi-level way. Finally, the retrieval outputs from
all levels are late fused to obtain final text-video retrieval results. Our
framework provides two kinds of training strategies, including an ensemble
manner and an end-to-end manner. Moreover, a novel multi-modal balance loss
function is proposed to balance the contributions of each modality for
efficient end-to-end training. M2HF allows us to obtain state-of-the-art
results on various benchmarks, eg, Rank@1 of 64.9\%, 68.2\%, 33.2\%, 57.1\%,
57.8\% on MSR-VTT, MSVD, LSMDC, DiDeMo, and ActivityNet, respectively.
- Abstract(参考訳): ビデオにはマルチモーダルなコンテンツが含まれており、自然言語クエリとのマルチレベルのクロスモーダルなインタラクションは、テキストビデオ検索タスク(TVR)に大きく貢献する。
しかし,tvrの大規模事前学習モデルクリップに適用する新しいトレンド手法は,ビデオのマルチモーダルな手がかりに注目しない。
さらに、従来の手法では、マルチモーダルな特徴を単純に結合する手法では、ビデオ内の微細なクロスモーダル情報を利用できない。
本稿では,m2hf(multi-level multi-modal hybrid fusion)ネットワークを提案する。
特に、m2hfはクリップによって抽出された視覚機能を利用して、ビデオから抽出された音声とモーション機能と早期融合し、それぞれオーディオと視覚の融合機能とモーションと視覚の融合機能を得る。
この過程ではマルチモーダルアライメントの問題も考慮される。
次に,映像の特徴,音声-視覚融合機能,モーション-視覚融合機能,および動画から抽出したテキストは,多段階的なキャプションクエリとの相互関係を確立する。
最後に、全レベルからの検索出力を遅延して最終テキストビデオ検索結果を得る。
私たちのフレームワークは,アンサンブル方式とエンドツーエンド方式の2種類のトレーニング戦略を提供します。
さらに、効率的なエンドツーエンドトレーニングのための各モダリティの貢献のバランスをとるために、新しいマルチモーダルバランス損失関数を提案する。
M2HFは、MSR-VTT, MSVD, LSMDC, DiDeMo, ActivityNetの各ベンチマークで、それぞれ64.9\%, 68.2\%, 33.2\%, 57.1\%, 57.8\%の最先端結果が得られる。
関連論文リスト
- Everything is a Video: Unifying Modalities through Next-Frame Prediction [5.720266474212221]
自然言語処理(NLP)を超えて,タスク再構成の概念を多モーダル学習に拡張する新しいフレームワークを提案する。
本稿では,多様なマルチモーダルタスクを統一した次フレーム予測問題に再構成することを提案する。
提案手法は,テキスト・トゥ・テキスト,画像・トゥ・テキスト,ビデオ・トゥ・ビデオ,ビデオ・トゥ・テキスト,音声・トゥ・テキストなど,様々なタスクで評価される。
論文 参考訳(メタデータ) (2024-11-15T12:59:37Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - Emu: Generative Pretraining in Multimodality [43.759593451544546]
トランスフォーマーベースのマルチモーダル基礎モデルは、マルチモーダルコンテキストで画像やテキストをシームレスに生成することができる。
Emuは、画像からテキストまでのタスクとテキストから画像へのタスクの両方のための汎用マルチモーダルインターフェースとして機能する。
Emuは最先端の大規模マルチモーダルモデルと比較して非常に高い性能を示す。
論文 参考訳(メタデータ) (2023-07-11T12:45:39Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Multilevel Hierarchical Network with Multiscale Sampling for Video
Question Answering [16.449212284367366]
ビデオQAのためのマルチスケールサンプリング機能を備えたMHN(Multilevel Hierarchical Network)を提案する。
MHNは、Recurrent Multimodal Interaction (RMI) と Parallel Visual Reasoning (PVR) の2つのモジュールからなる。
マルチスケールサンプリングにより、RMIは、各スケールにおける外見・動き情報の相互作用と質問埋め込みを反復して、マルチレベルな質問誘導視覚表現を構築する。
PVRは各レベルの視覚的手がかりを並列に推測し、関連するレベルの視覚情報に依存する可能性のある様々な質問タイプに適合する。
論文 参考訳(メタデータ) (2022-05-09T06:28:56Z) - MHMS: Multimodal Hierarchical Multimedia Summarization [80.18786847090522]
視覚領域と言語領域を相互作用させることにより,マルチモーダル階層型マルチメディア要約(MHMS)フレームワークを提案する。
本手法は,ビデオとテキストのセグメンテーションと要約モジュールをそれぞれ含んでいる。
ドメイン間のアライメントの目的を最適な輸送距離で定式化し、代表とテキストの要約を生成する。
論文 参考訳(メタデータ) (2022-04-07T21:00:40Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。