論文の概要: Streaming Video Model
- arxiv url: http://arxiv.org/abs/2303.17228v1
- Date: Thu, 30 Mar 2023 08:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 13:58:03.827277
- Title: Streaming Video Model
- Title(参考訳): ストリーミングビデオモデル
- Authors: Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella,
Zheng-Jun Zha
- Abstract要約: 本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。
S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
- 参考スコア(独自算出の注目度): 90.24390609039335
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Video understanding tasks have traditionally been modeled by two separate
architectures, specially tailored for two distinct tasks. Sequence-based video
tasks, such as action recognition, use a video backbone to directly extract
spatiotemporal features, while frame-based video tasks, such as multiple object
tracking (MOT), rely on single fixed-image backbone to extract spatial
features. In contrast, we propose to unify video understanding tasks into one
novel streaming video architecture, referred to as Streaming Vision Transformer
(S-ViT). S-ViT first produces frame-level features with a memory-enabled
temporally-aware spatial encoder to serve the frame-based video tasks. Then the
frame features are input into a task-related temporal decoder to obtain
spatiotemporal features for sequence-based tasks. The efficiency and efficacy
of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based
action recognition task and the competitive advantage over conventional
architecture in the frame-based MOT task. We believe that the concept of
streaming video model and the implementation of S-ViT are solid steps towards a
unified deep learning architecture for video understanding. Code will be
available at https://github.com/yuzhms/Streaming-Video-Model.
- Abstract(参考訳): ビデオ理解タスクは伝統的に2つの異なるアーキテクチャでモデル化されてきた。
アクション認識などのシーケンスベースのビデオタスクは、ビデオバックボーンを使用して時空間的特徴を直接抽出する一方、マルチオブジェクトトラッキング(MOT)のようなフレームベースのビデオタスクは、空間的特徴を抽出するために単一の固定イメージバックボーンに依存する。
対照的に,映像理解タスクを,ストリーミングビジョントランスフォーマー(s-vit)と呼ばれる,新たなストリーミングビデオアーキテクチャに統合することを提案する。
S-ViTはまず、フレームベースのビデオタスクを提供するために、メモリ対応の時空間エンコーダを備えたフレームレベル機能を生成する。
次に、フレーム特徴をタスク関連時間デコーダに入力し、シーケンスベースタスクの時空間特徴を得る。
s-vitの効率と有効性は、シーケンスベース動作認識タスクにおける最先端精度と、フレームベースmotタスクにおける従来のアーキテクチャに対する競合優位性によって示される。
ストリーミングビデオモデルの概念とs-vitの実装は、ビデオ理解のための統合ディープラーニングアーキテクチャに向けた確かなステップであると考えています。
コードはhttps://github.com/yuzhms/Streaming-Video-Model.comから入手できる。
関連論文リスト
- TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。
TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文 参考訳(メタデータ) (2024-10-05T16:30:46Z) - Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。
最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。
N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。
ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文 参考訳(メタデータ) (2024-02-04T17:52:04Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。
本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。
提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文 参考訳(メタデータ) (2022-06-08T09:00:31Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。
特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文 参考訳(メタデータ) (2021-03-31T17:56:13Z) - Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。
本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。
我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文 参考訳(メタデータ) (2020-03-13T06:07:45Z) - Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。
スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。
このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2020-02-21T18:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。