論文の概要: You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos
- arxiv url: http://arxiv.org/abs/2303.07863v2
- Date: Thu, 16 Mar 2023 08:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 11:32:14.188608
- Title: You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos
- Title(参考訳): 圧縮ビデオの時間的接地に効果的で効率的なパイプライン
- Authors: Xiang Fang, Daizong Liu, Pan Zhou, Guoshun Nan
- Abstract要約: ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
- 参考スコア(独自算出の注目度): 56.676761067861236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an untrimmed video, temporal sentence grounding (TSG) aims to locate a
target moment semantically according to a sentence query. Although previous
respectable works have made decent success, they only focus on high-level
visual features extracted from the consecutive decoded frames and fail to
handle the compressed videos for query modelling, suffering from insufficient
representation capability and significant computational complexity during
training and testing. In this paper, we pose a new setting, compressed-domain
TSG, which directly utilizes compressed videos rather than fully-decompressed
frames as the visual input. To handle the raw video bit-stream input, we
propose a novel Three-branch Compressed-domain Spatial-temporal Fusion (TCSF)
framework, which extracts and aggregates three kinds of low-level visual
features (I-frame, motion vector and residual features) for effective and
efficient grounding. Particularly, instead of encoding the whole decoded frames
like previous works, we capture the appearance representation by only learning
the I-frame feature to reduce delay or latency. Besides, we explore the motion
information not only by learning the motion vector feature, but also by
exploring the relations of neighboring frames via the residual feature. In this
way, a three-branch spatial-temporal attention layer with an adaptive
motion-appearance fusion module is further designed to extract and aggregate
both appearance and motion information for the final grounding. Experiments on
three challenging datasets shows that our TCSF achieves better performance than
other state-of-the-art methods with lower complexity.
- Abstract(参考訳): ビデオがトリミングされていない場合、時間的文接地(TSG)は、文問合せに応じて意味的にターゲットモーメントを見つけることを目的としている。
これまでの卓越した作品は、十分に成功したものの、連続した復号化フレームから抽出された高レベルな視覚的特徴にのみ焦点を合わせ、クエリモデリングのための圧縮ビデオの処理に失敗した。
本稿では,画像入力として完全にデ圧縮されたフレームではなく,圧縮されたビデオを直接利用する圧縮ドメインtsgを提案する。
生のビデオビットストリーム入力を処理するために,3種類の低レベル視覚特徴(iフレーム,運動ベクトル,残差特徴)を抽出・集約し,効率的かつ効率的な接地を行う,圧縮領域空間時空間融合(tcsf)フレームワークを提案する。
特に、以前の処理のようにデコードされたフレーム全体をエンコードする代わりに、I-frame機能のみを学習して、遅延やレイテンシを低減することで、外観表現をキャプチャします。
さらに, 動きベクトルの特徴を学習するだけでなく, 残像を通して隣接するフレームの関係を探索することで, 動き情報を探究する。
このようにして、適応的な動き出現融合モジュールを備えた3分岐空間時間的注意層を設計し、最終接地のための外観情報と動き情報の両方を抽出・集約する。
3つの挑戦的なデータセットの実験から、我々のTCSFは、複雑さの低い他の最先端のメソッドよりも優れたパフォーマンスを実現しています。
関連論文リスト
- SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition [18.542942459854867]
従来のデータ駆動研究には大量のビデオサンプルが継続的に必要である。
本稿では,Stemp-Oral frAme tuwenle (SOAP) と呼ばれるアクション認識のための新しいプラグイン・アンド・プレイアーキテクチャを提案する。
SOAP-Netは、SthSthV2、Kineetics、UCF101、SOAP51といった有名なベンチマークで、最先端のパフォーマンスを新たに達成します。
論文 参考訳(メタデータ) (2024-07-23T09:45:25Z) - D-NPC: Dynamic Neural Point Clouds for Non-Rigid View Synthesis from Monocular Video [53.83936023443193]
本稿では,スマートフォンのキャプチャなどのモノクロ映像から動的に新しいビューを合成する手法を導入することにより,この分野に貢献する。
我々のアプローチは、局所的な幾何学と外観を別個のハッシュエンコードされたニューラル特徴グリッドにエンコードする暗黙の時間条件のポイントクラウドである、$textitdynamic Neural point cloudとして表現されている。
論文 参考訳(メタデータ) (2024-06-14T14:35:44Z) - Accelerated Event-Based Feature Detection and Compression for
Surveillance Video Systems [1.5390526524075634]
スパース圧縮表現において時間的冗長性を伝達する新しいシステムを提案する。
我々はADDERと呼ばれるビデオ表現フレームワークを利用して、フレーム化されたビデオを疎結合で非同期な強度サンプルに変換する。
我々の研究は、今後のニューロモルフィックセンサーの道を切り拓き、スパイクニューラルネットワークによる将来の応用に有効である。
論文 参考訳(メタデータ) (2023-12-13T15:30:29Z) - DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking
Tasks [76.24996889649744]
Masked Autoencoder (MAE) Pretraining on video for matching-based downstream task, including visual object tracking (VOT) and video object segmentation (VOS)
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
本モデルは,9つの競争力のあるビデオ追跡とセグメンテーションデータセットのうち8つに,最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。