論文の概要: MamFusion: Multi-Mamba with Temporal Fusion for Partially Relevant Video Retrieval
- arxiv url: http://arxiv.org/abs/2506.03473v1
- Date: Wed, 04 Jun 2025 01:08:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.098372
- Title: MamFusion: Multi-Mamba with Temporal Fusion for Partially Relevant Video Retrieval
- Title(参考訳): MamFusion: 部分関連ビデオ検索のためのテンポラルフュージョン付きマルチマンバ
- Authors: Xinru Ying, Jiaqi Mo, Jingyang Lin, Canghong Jin, Fangfang Wang, Lina Wei,
- Abstract要約: 部分関連ビデオ検索(PRVR)は,マルチメディア検索分野における課題である。
本研究では,情報冗長性問題に対処するために,長時間の映像コンテンツ理解について検討する。
PRVRタスクに適した時間融合フレームワーク(MamFusion)を備えたマルチマンバモジュールを提案する。
- 参考スコア(独自算出の注目度): 4.747939043785552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Partially Relevant Video Retrieval (PRVR) is a challenging task in the domain of multimedia retrieval. It is designed to identify and retrieve untrimmed videos that are partially relevant to the provided query. In this work, we investigate long-sequence video content understanding to address information redundancy issues. Leveraging the outstanding long-term state space modeling capability and linear scalability of the Mamba module, we introduce a multi-Mamba module with temporal fusion framework (MamFusion) tailored for PRVR task. This framework effectively captures the state-relatedness in long-term video content and seamlessly integrates it into text-video relevance understanding, thereby enhancing the retrieval process. Specifically, we introduce Temporal T-to-V Fusion and Temporal V-to-T Fusion to explicitly model temporal relationships between text queries and video moments, improving contextual awareness and retrieval accuracy. Extensive experiments conducted on large-scale datasets demonstrate that MamFusion achieves state-of-the-art performance in retrieval effectiveness. Code is available at the link: https://github.com/Vision-Multimodal-Lab-HZCU/MamFusion.
- Abstract(参考訳): 部分関連ビデオ検索(PRVR)は,マルチメディア検索分野における課題である。
提供されるクエリに部分的に関係している未トリミングされたビデオを特定し、検索するように設計されている。
本研究では,情報冗長性問題に対処するために,長時間の映像コンテンツ理解について検討する。
本稿では,Mambaモジュールの長期空間モデリング能力と線形拡張性を活用し,PRVRタスクに適した時間融合フレームワーク(MamFusion)を備えたマルチマンバモジュールを提案する。
このフレームワークは、長期ビデオコンテンツの状態関連性を効果的にキャプチャし、テキスト・ビデオ関連理解にシームレスに統合することにより、検索プロセスを強化する。
具体的には、テキストクエリとビデオモーメント間の時間的関係を明示的にモデル化し、文脈認識と検索精度を向上させるために、時間的T-to-V融合と時間的V-to-T融合を導入する。
大規模データセットを用いた大規模な実験により,MamFusionは検索効率において最先端の性能を達成することが示された。
コードはリンクで入手できる。 https://github.com/Vision-Multimodal-Lab-HZCU/MamFusion。
関連論文リスト
- A Unified Solution to Video Fusion: From Multi-Frame Learning to Benchmarking [47.312955861553995]
We propose Unified Video Fusion (UniVF), a novel framework for temporally coherent video fusion。
また,その開発を支援するために,ビデオフュージョンベンチマーク (VF-Bench) も導入した。
論文 参考訳(メタデータ) (2025-05-26T11:45:10Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Mutli-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
時間的推論と大規模マルチモーダルデータ処理の必要性から,Long Video Question Answering (LVQA) は困難である。
非常に長い動画を効率的に処理する検索拡張生成フレームワークであるUMaTを紹介する。
UMaTは、マルチモーダル統合、長文ビデオ理解、スパース情報検索において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - MERLIN: Multimodal Embedding Refinement via LLM-based Iterative Navigation for Text-Video Retrieval-Rerank Pipeline [24.93092798651332]
本稿では,Large Language Models (LLMs) を反復的なフィードバック学習に活用する,学習不要のパイプラインであるMERLINを紹介する。
MERLINは、クエリの埋め込みをユーザの視点から洗練し、クエリとビデオコンテンツのアライメントを強化する。
MSR-VTT、MSVD、ActivityNetといったデータセットの実験結果は、MERLINがRecall@1を大幅に改善し、既存のシステムよりも優れた性能を示している。
論文 参考訳(メタデータ) (2024-07-17T11:45:02Z) - Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。