論文の概要: MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding
- arxiv url: http://arxiv.org/abs/2506.08512v1
- Date: Tue, 10 Jun 2025 07:20:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.760487
- Title: MLVTG: Mamba-Based Feature Alignment and LLM-Driven Purification for Multi-Modal Video Temporal Grounding
- Title(参考訳): MLVTG:マルチモーダルビデオ時間グラウンドのためのマンバ機能アライメントとLCMによる浄化
- Authors: Zhiyi Zhu, Xiaoyu Wu, Zihao Liu, Linlin Yang,
- Abstract要約: Video Temporal Groundingは、自然言語クエリに対応するビデオクリップをローカライズすることを目的としている。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
- 参考スコア(独自算出の注目度): 13.025856914576673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Temporal Grounding (VTG), which aims to localize video clips corresponding to natural language queries, is a fundamental yet challenging task in video understanding. Existing Transformer-based methods often suffer from redundant attention and suboptimal multi-modal alignment. To address these limitations, we propose MLVTG, a novel framework that integrates two key modules: MambaAligner and LLMRefiner. MambaAligner uses stacked Vision Mamba blocks as a backbone instead of Transformers to model temporal dependencies and extract robust video representations for multi-modal alignment. LLMRefiner leverages the specific frozen layer of a pre-trained Large Language Model (LLM) to implicitly transfer semantic priors, enhancing multi-modal alignment without fine-tuning. This dual alignment strategy, temporal modeling via structured state-space dynamics and semantic purification via textual priors, enables more precise localization. Extensive experiments on QVHighlights, Charades-STA, and TVSum demonstrate that MLVTG achieves state-of-the-art performance and significantly outperforms existing baselines.
- Abstract(参考訳): 自然言語クエリに対応するビデオクリップをローカライズすることを目的としたVTG(Video Temporal Grounding)は,ビデオ理解の基本的な課題である。
既存のTransformerベースの手法は、しばしば冗長な注意と準最適マルチモーダルアライメントに悩まされる。
MLVTGは,MambaAligner と LLMRefiner の2つの重要なモジュールを統合した新しいフレームワークである。
MambaAlignerは、Transformerの代わりにスタックされたVision Mambaブロックをバックボーンとして使用し、時間依存をモデル化し、マルチモーダルアライメントのための堅牢なビデオ表現を抽出する。
LLMRefinerは、事前訓練されたLarge Language Model(LLM)の特定の凍結層を利用して、暗黙的にセマンティック事前を転送し、微調整なしでマルチモーダルアライメントを向上させる。
この二重アライメント戦略、構造化状態空間力学による時間的モデリング、テキスト前処理による意味的浄化により、より正確な局所化が可能となる。
QVHighlights、Charades-STA、TVSumの大規模な実験は、MLVTGが最先端のパフォーマンスを達成し、既存のベースラインを大幅に上回ることを示した。
関連論文リスト
- VideoMolmo: Spatio-Temporal Grounding Meets Pointing [73.25506085339252]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving [26.536195829285855]
自律走行ビデオの複雑な動き変化に適合する新しい階層型マンバ適応(H-MBA)フレームワークを提案する。
C-Mambaには様々なタイプの構造状態空間モデルが含まれており、時間分解能の異なるマルチグラニュラリティビデオコンテキストを効果的にキャプチャすることができる。
Q-Mambaは、現在のフレームを学習可能なクエリとして柔軟に変換し、多粒度ビデオコンテキストをクエリに注意深く選択する。
論文 参考訳(メタデータ) (2025-01-08T06:26:16Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - VideoGLaMM: A Large Multimodal Model for Pixel-Level Visual Grounding in Videos [58.765796160750504]
VideoGLaMMは、ユーザが提供するテキスト入力に基づいて、ビデオの細かいピクセルレベルのグラウンド化を行うための新しいモデルである。
このアーキテクチャは、ビデオコンテンツの空間的要素と時間的要素の両方をテキスト命令と同期させるよう訓練されている。
実験の結果、我々のモデルは3つのタスクすべてで既存のアプローチより一貫して優れています。
論文 参考訳(メタデータ) (2024-11-07T17:59:27Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Tuning Large Multimodal Models for Videos using Reinforcement Learning from AI Feedback [38.708690624594794]
ビデオとテキストのマルチモーダルアライメントは、主にマルチモーダル命令・チューンデータのボリュームと品質が不足しているため、依然として困難である。
本稿では,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる,マルチモーダルAIシステムを用いた新たなアライメント戦略を提案する。
具体的には、嗜好フィードバックの生成中に、詳細な映像記述を文脈として提供することによって、文脈対応報酬モデルを提案する。
論文 参考訳(メタデータ) (2024-02-06T06:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。