論文の概要: Spatio-temporal Prompting Network for Robust Video Feature Extraction
- arxiv url: http://arxiv.org/abs/2402.02574v1
- Date: Sun, 4 Feb 2024 17:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:48:55.654315
- Title: Spatio-temporal Prompting Network for Robust Video Feature Extraction
- Title(参考訳): ロバストビデオ特徴抽出のための時空間プロンプトネットワーク
- Authors: Guanxiong Sun, Chi Wang, Zhaoyu Zhang, Jiankang Deng, Stefanos
Zafeiriou, Yang Hua
- Abstract要約: フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
- 参考スコア(独自算出の注目度): 74.54597668310707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frame quality deterioration is one of the main challenges in the field of
video understanding. To compensate for the information loss caused by
deteriorated frames, recent approaches exploit transformer-based integration
modules to obtain spatio-temporal information. However, these integration
modules are heavy and complex. Furthermore, each integration module is
specifically tailored for its target task, making it difficult to generalise to
multiple tasks. In this paper, we present a neat and unified framework, called
Spatio-Temporal Prompting Network (STPN). It can efficiently extract robust and
accurate video features by dynamically adjusting the input features in the
backbone network. Specifically, STPN predicts several video prompts containing
spatio-temporal information of neighbour frames. Then, these video prompts are
prepended to the patch embeddings of the current frame as the updated input for
video feature extraction. Moreover, STPN is easy to generalise to various video
tasks because it does not contain task-specific modules. Without bells and
whistles, STPN achieves state-of-the-art performance on three widely-used
datasets for different video understanding tasks, i.e., ImageNetVID for video
object detection, YouTubeVIS for video instance segmentation, and GOT-10k for
visual object tracking. Code is available at
https://github.com/guanxiongsun/vfe.pytorch.
- Abstract(参考訳): フレーム品質の劣化は、ビデオ理解の分野で大きな課題の1つである。
劣化したフレームによる情報損失を補うため,最近の手法ではトランスフォーマーベースの統合モジュールを利用して時空間情報を取得する。
しかし、これらの統合モジュールは重く複雑です。
さらに、各統合モジュールはターゲットタスク用に特別に調整されており、複数のタスクに一般化することが困難である。
本稿では,スポーティ・テンポラル・プロンプティング・ネットワーク(STPN)と呼ばれる,クリーンで統一されたフレームワークを提案する。
バックボーンネットワークの入力特徴を動的に調整することにより、ロバストで正確な映像特徴を効率的に抽出することができる。
具体的には、STPNは近隣フレームの時空間情報を含む複数のビデオプロンプトを予測する。
そして、ビデオ特徴抽出のための更新入力として、現在のフレームのパッチ埋め込みに、これらのビデオプロンプトをプリプットする。
さらに、STPNはタスク固有のモジュールを含まないため、様々なビデオタスクに簡単に一般化できる。
STPNは、ビデオオブジェクト検出のためのImageNetVID、ビデオインスタンスセグメンテーションのためのYouTubeVIS、ビジュアルオブジェクト追跡のためのGOT-10kという、さまざまなビデオ理解タスクのために広く使用されている3つのデータセットに対して、最先端のパフォーマンスを達成する。
コードはhttps://github.com/guanxiongsun/vfe.pytorchで入手できる。
関連論文リスト
- OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer [14.503628667535425]
広範なビデオの処理は、膨大なデータと処理要求のために大きな課題をもたらします。
我々はOmAgentを開発し、特定のクエリの関連ビデオフレームを効率的に保存し、検索する。
自律推論が可能なDivide-and-Conquer Loopを備えている。
より高度な自律性と堅牢なツールコールシステムを備えており、さらに複雑なタスクを達成できます。
論文 参考訳(メタデータ) (2024-06-24T13:05:39Z) - LongVLM: Efficient Long Video Understanding via Large Language Models [55.813206751150716]
LongVLMはビデオ理解のためのシンプルだが強力なビデオLLMである。
ローカル情報とグローバル情報の両方を含むビデオ表現をエンコードする。
我々のモデルは、長いビデオ理解のためのより正確な応答を生成する。
論文 参考訳(メタデータ) (2024-04-04T11:33:29Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language
Understanding [20.16000249533665]
TESTAは、似たようなフレームを適応的に集約することで、ビデオセマンティクスを凝縮する。
TESTAに基づいて,各ビデオブロックに分割した時空トークン集約モジュールを備えた事前学習ビデオ言語モデルを導入する。
段落間検索と長文ビデオQAタスクのための5つのデータセットを用いて,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-10-29T16:25:32Z) - Streaming Video Model [90.24390609039335]
本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
論文 参考訳(メタデータ) (2023-03-30T08:51:49Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Temporal Complementary Learning for Video Person Re-Identification [110.43147302200101]
本稿では,連続する映像フレームの相補的特徴を抽出し,映像人物の再同定を行う時間補完学習ネットワークを提案する。
サリエンシ消去操作により、特定の学習者は、前のフレームによって活性化された部分を消去することにより、新規かつ補完的な部分をマイニングする。
テンポラル・サリエンシ・ブースティング(TSB)モジュールは、ビデオフレーム間のサリエント情報を伝播してサリエント機能を強化するように設計されている。
論文 参考訳(メタデータ) (2020-07-18T07:59:01Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。