論文の概要: MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding
- arxiv url: http://arxiv.org/abs/2212.13163v2
- Date: Tue, 27 Dec 2022 05:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 12:05:29.111608
- Title: MRTNet: Multi-Resolution Temporal Network for Video Sentence Grounding
- Title(参考訳): MRTNet:ビデオセマンスグラウンドのためのマルチリゾリューション時間ネットワーク
- Authors: Wei Ji, Long Chen, Yinwei Wei, Yiming Wu, Tat-Seng Chua
- Abstract要約: 本稿では,マルチレゾリューション・テンポラルビデオ文グラウンドティングネットワーク MRTNet を提案する。
MRTNetはマルチモーダル機能エンコーダ、Multi-Resolution Temporal (MRT)モジュール、予測モジュールで構成される。
私たちのMRTモジュールはホットプラグ可能で、任意のアンカーフリーモデルにシームレスに組み込むことができます。
- 参考スコア(独自算出の注目度): 70.82093938170051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an untrimmed video and natural language query, video sentence grounding
aims to localize the target temporal moment in the video. Existing methods
mainly tackle this task by matching and aligning semantics of the descriptive
sentence and video segments on a single temporal resolution, while neglecting
the temporal consistency of video content in different resolutions. In this
work, we propose a novel multi-resolution temporal video sentence grounding
network: MRTNet, which consists of a multi-modal feature encoder, a
Multi-Resolution Temporal (MRT) module, and a predictor module. MRT module is
an encoder-decoder network, and output features in the decoder part are in
conjunction with Transformers to predict the final start and end timestamps.
Particularly, our MRT module is hot-pluggable, which means it can be seamlessly
incorporated into any anchor-free models. Besides, we utilize a hybrid loss to
supervise cross-modal features in MRT module for more accurate grounding in
three scales: frame-level, clip-level and sequence-level. Extensive experiments
on three prevalent datasets have shown the effectiveness of MRTNet.
- Abstract(参考訳): 未編集のビデオと自然言語のクエリが与えられた場合、ビデオ文のグラウンド化は、ビデオ中のターゲット時間モーメントをローカライズすることを目的としている。
既存の手法では,1つの時間分解能に基づいて記述文とビデオセグメントのセマンティクスをマッチング・整合させ,異なる解像度で映像コンテンツの時間的一貫性を無視する。
本研究では,マルチモーダル特徴エンコーダ,マルチリゾリューション・テンポラル(MRT)モジュール,および予測モジュールで構成される,新しいマルチレゾリューション・テンポラルビデオ文グラウンドリングネットワーク MRTNetを提案する。
MRTモジュールはエンコーダとデコーダのネットワークであり、デコーダ部の出力機能はTransformerと連動して最終開始時刻と終了時刻を予測する。
特に、我々のMRTモジュールはホットプラグ可能であり、任意のアンカーフリーモデルにシームレスに組み込むことができる。
さらに,MRTモジュールのクロスモーダルな特徴を,フレームレベル,クリップレベル,シーケンスレベルという3つのスケールでより正確にグラウンド化するために,ハイブリッド損失を利用する。
3つの一般的なデータセットに対する大規模な実験は、MRTNetの有効性を示している。
関連論文リスト
- Unveiling the Limits of Alignment: Multi-modal Dynamic Local Fusion Network and A Benchmark for Unaligned RGBT Video Object Detection [5.068440399797739]
現在のRGB-Thermal Video Object Detection (RGBT VOD) 法は、画像レベルで手動で調整するデータに依存する。
不整合RGBTペアを扱うために設計されたMDLNet(Multi-modal Dynamic Local fusion Network)を提案する。
MDLNet と State-of-the-art (SOTA) モデルとの総合的な評価と比較を行い,MDLNet の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-16T01:06:12Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - MH-DETR: Video Moment and Highlight Detection with Cross-modal
Transformer [17.29632719667594]
映像モーメントとハイライト検出(MHD)に適したMH-DETR(Moment and Highlight Detection Transformer)を提案する。
単一モードエンコーダ内にシンプルだが効率的なプーリング演算子を導入し,グローバルなモード内コンテキストをキャプチャする。
時間的に整列したクロスモーダルな特徴を得るために,エンコーダとデコーダ間のプラグ・アンド・プレイ・クロスモーダルな相互作用モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-29T22:50:53Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - VRT: A Video Restoration Transformer [126.79589717404863]
ビデオ復元(例:ビデオ超解像度)は、高品質のフレームを低品質のフレームから復元することを目的としている。
並列フレーム予測と長距離時間依存性モデリング機能を備えたビデオ再生変換器(VRT)を提案する。
論文 参考訳(メタデータ) (2022-01-28T17:54:43Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - UNETR: Transformers for 3D Medical Image Segmentation [8.59571749685388]
UNEt TRansformers(UNETR)と呼ばれる新しいアーキテクチャを導入し、純粋なトランスフォーマーをエンコーダとして入力ボリュームのシーケンス表現を学習します。
提案モデルの性能を様々なイメージング手法で広く検証しています。
論文 参考訳(メタデータ) (2021-03-18T20:17:15Z) - Zooming Slow-Mo: Fast and Accurate One-Stage Space-Time Video
Super-Resolution [95.26202278535543]
単純な解決策は、ビデオフレーム(VFI)とビデオ超解像(VSR)の2つのサブタスクに分割することである。
時間合成と空間超解像はこの課題に関係している。
LFR,LRビデオからHRスローモーション映像を直接合成するワンステージ時空間ビデオ超解像フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。