論文の概要: Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding
- arxiv url: http://arxiv.org/abs/2603.22121v1
- Date: Mon, 23 Mar 2026 15:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.761046
- Title: Mamba-VMR: Multimodal Query Augmentation via Generated Videos for Precise Temporal Grounding
- Title(参考訳): Mamba-VMR: 正確な時間的接地のための生成ビデオによるマルチモーダルクエリ拡張
- Authors: Yunzhuo Sun, Xinyue Liu, Yanyang Li, Nanding Wu, Yifang Xu, Linlin Zong, Xianchao Zhang, Wenxin Liang,
- Abstract要約: テキスト駆動ビデオモーメント検索(VMR)は、未トリミングビデオに隠された時間的ダイナミクスが限られているため、依然として困難である。
既存のアプローチでは、サブタイトルコンテキストと時間的事前生成を効果的に統合できない。
時間的接地強化のための新しい2段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.92734717848329
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text-driven video moment retrieval (VMR) remains challenging due to limited capture of hidden temporal dynamics in untrimmed videos, leading to imprecise grounding in long sequences. Traditional methods rely on natural language queries (NLQs) or static image augmentations, overlooking motion sequences and suffering from high computational costs in Transformer-based architectures. Existing approaches fail to integrate subtitle contexts and generated temporal priors effectively, we therefore propose a novel two-stage framework for enhanced temporal grounding. In the first stage, LLM-guided subtitle matching identifies relevant textual cues from video subtitles, fused with the query to generate auxiliary short videos via text-to-video models, capturing implicit motion information as temporal priors. In the second stage, augmented queries are processed through a multi-modal controlled Mamba network, extending text-controlled selection with video-guided gating for efficient fusion of generated priors and long sequences while filtering noise. Our framework is agnostic to base retrieval models and widely applicable for multimodal VMR. Experimental evaluations on the TVR benchmark demonstrate significant improvements over state-of-the-art methods, including reduced computational overhead and higher recall in long-sequence grounding.
- Abstract(参考訳): テキスト駆動ビデオモーメント検索(VMR)は、未トリミングビデオにおける隠れ時間的ダイナミクスの捕捉が限られており、長いシーケンスで不正確なグラウンド化につながるため、依然として困難である。
従来の手法は自然言語クエリ(NLQ)や静的画像拡張に依存しており、動作シーケンスを見下ろし、Transformerベースのアーキテクチャでは高い計算コストに悩まされている。
既存のアプローチではサブタイトルコンテキストの統合に失敗し、時間的先行を効果的に生成するので、時間的接地を強化するための新しい2段階の枠組みを提案する。
第1段階では、LLM誘導字幕マッチングは、ビデオ字幕から関連するテキストの手がかりを識別し、クエリと融合してテキスト・ツー・ビデオモデルを介して補助的なショートビデオを生成し、暗黙の動作情報を時間的先行としてキャプチャする。
第2段階では、拡張クエリはマルチモーダル制御されたMambaネットワークを介して処理され、ビデオ誘導ゲーティングを用いてテキスト制御の選択を拡張し、ノイズをフィルタリングしながら生成された前列と長い列を効率的に融合させる。
本フレームワークはベース検索モデルに非依存であり,マルチモーダルVMRに適用可能である。
また,TVRベンチマークによる評価により,リアルタイムグラウンドディングにおける計算オーバーヘッドの低減やリコール率の向上など,最先端手法の大幅な改善が示された。
関連論文リスト
- TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文 参考訳(メタデータ) (2025-12-29T14:10:22Z) - Enrich and Detect: Video Temporal Grounding with Multimodal LLMs [60.224522472631776]
ED-VTGは,マルチモーダルな大言語モデルを用いた微細なビデオ時間的グラウンド化手法である。
提案手法は,テキストと動画を共同処理するマルチモーダルLLMの機能を利用する。
我々は,時間的ビデオグラウンドと段落グラウンドの設定において,様々なベンチマークにおいて最先端の結果を示す。
論文 参考訳(メタデータ) (2025-10-19T22:12:45Z) - Tempo-R0: A Video-MLLM for Temporal Video Grounding through Efficient Temporal Sensing Reinforcement Learning [6.9627404612894335]
時間的ビデオグラウンド(TVG)は、言語クエリに基づいて、ビデオから関連する時間的セグメントをピンポイントする必要がある。
本稿では,時間的ビデオグラウンド処理のためのビデオマルチモーダル大言語モデルであるTempo-R0を提案する。
本手法は,元のQVHighlightsテストベンチの約3.5%でSOTAソリューションに対する顕著な優位性を実現する。
論文 参考訳(メタデータ) (2025-07-07T06:51:40Z) - MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding [13.025856914576673]
Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
論文 参考訳(メタデータ) (2025-06-10T07:20:12Z) - Everything Can Be Described in Words: A Simple Unified Multi-Modal Framework with Semantic and Temporal Alignment [0.0]
大規模言語モデルのための構造化テキストとして視覚と聴覚の入力を統一するフレームワークであるUMaTを提案する。
最新技術であるLong Video Question Answeringの精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-12T05:28:24Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Temporal Preference Optimization for Long-Form Video Understanding [63.196246578583136]
TPO(Temporal Preference Optimization)は、ビデオLMMの時間的グラウンド機能を高めるために設計された、新しいポストトレーニングフレームワークである。
TPOは、手動の注釈付きデータへの依存を減らしながら、時間的理解を著しく向上させる。
LLaVA-Video-TPOは、Video-MMEベンチマークでトップ7Bモデルとしての地位を確立している。
論文 参考訳(メタデータ) (2025-01-23T18:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。