論文の概要: Streaming Video Model
- arxiv url: http://arxiv.org/abs/2303.17228v1
- Date: Thu, 30 Mar 2023 08:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:58:03.827277
- Title: Streaming Video Model
- Title(参考訳): ストリーミングビデオモデル
- Authors: Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella,
Zheng-Jun Zha
- Abstract要約: 本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
- 参考スコア(独自算出の注目度): 90.24390609039335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video understanding tasks have traditionally been modeled by two separate
architectures, specially tailored for two distinct tasks. Sequence-based video
tasks, such as action recognition, use a video backbone to directly extract
spatiotemporal features, while frame-based video tasks, such as multiple object
tracking (MOT), rely on single fixed-image backbone to extract spatial
features. In contrast, we propose to unify video understanding tasks into one
novel streaming video architecture, referred to as Streaming Vision Transformer
(S-ViT). S-ViT first produces frame-level features with a memory-enabled
temporally-aware spatial encoder to serve the frame-based video tasks. Then the
frame features are input into a task-related temporal decoder to obtain
spatiotemporal features for sequence-based tasks. The efficiency and efficacy
of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based
action recognition task and the competitive advantage over conventional
architecture in the frame-based MOT task. We believe that the concept of
streaming video model and the implementation of S-ViT are solid steps towards a
unified deep learning architecture for video understanding. Code will be
available at https://github.com/yuzhms/Streaming-Video-Model.
- Abstract(参考訳): ビデオ理解タスクは伝統的に2つの異なるアーキテクチャでモデル化されてきた。
アクション認識などのシーケンスベースのビデオタスクは、ビデオバックボーンを使用して時空間的特徴を直接抽出する一方、マルチオブジェクトトラッキング(MOT)のようなフレームベースのビデオタスクは、空間的特徴を抽出するために単一の固定イメージバックボーンに依存する。
対照的に,映像理解タスクを,ストリーミングビジョントランスフォーマー(s-vit)と呼ばれる,新たなストリーミングビデオアーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するために、メモリ対応の時空間エンコーダを備えたフレームレベル機能を生成する。
次に、フレーム特徴をタスク関連時間デコーダに入力し、シーケンスベースタスクの時空間特徴を得る。
s-vitの効率と有効性は、シーケンスベース動作認識タスクにおける最先端精度と、フレームベースmotタスクにおける従来のアーキテクチャに対する競合優位性によって示される。
ストリーミングビデオモデルの概念とs-vitの実装は、ビデオ理解のための統合ディープラーニングアーキテクチャに向けた確かなステップであると考えています。
コードはhttps://github.com/yuzhms/Streaming-Video-Model.comから入手できる。
関連論文リスト
- Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - TrackDiffusion: Multi-object Tracking Data Generation via Diffusion
Models [81.81382481184889]
TrackDiffusionは、トラックレットから連続的なビデオシーケンスを生成するように設計された新しいアーキテクチャである。
生成したビデオシーケンスを,MOT(Multi-object Tracking)システムのトレーニングに活用できることを初めて実証した。
提案手法はTrackAPの8.7とTrackAPの11.8をYTVISデータセットの_50$で改善する。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。