Fugu-MT 論文翻訳(概要): Streaming Video Model

論文の概要: Streaming Video Model

arxiv url: http://arxiv.org/abs/2303.17228v1
Date: Thu, 30 Mar 2023 08:51:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 13:58:03.827277
Title: Streaming Video Model
Title（参考訳）: ストリーミングビデオモデル
Authors: Yucheng Zhao, Chong Luo, Chuanxin Tang, Dongdong Chen, Noel Codella, Zheng-Jun Zha
Abstract要約: 本稿では,映像理解タスクをストリーミング・ビジョン・トランスフォーマー(Streaming Vision Transformer, S-ViT)と呼ばれる1つのストリーミング・ビデオ・アーキテクチャに統合することを提案する。 S-ViTはまず、フレームベースのビデオタスクを提供するメモリ対応時空間エンコーダでフレームレベルの機能を生成する。 S-ViTの効率と有効性は、シークエンスに基づく行動認識における最先端の精度によって実証される。
参考スコア（独自算出の注目度）: 90.24390609039335
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Video understanding tasks have traditionally been modeled by two separate architectures, specially tailored for two distinct tasks. Sequence-based video tasks, such as action recognition, use a video backbone to directly extract spatiotemporal features, while frame-based video tasks, such as multiple object tracking (MOT), rely on single fixed-image backbone to extract spatial features. In contrast, we propose to unify video understanding tasks into one novel streaming video architecture, referred to as Streaming Vision Transformer (S-ViT). S-ViT first produces frame-level features with a memory-enabled temporally-aware spatial encoder to serve the frame-based video tasks. Then the frame features are input into a task-related temporal decoder to obtain spatiotemporal features for sequence-based tasks. The efficiency and efficacy of S-ViT is demonstrated by the state-of-the-art accuracy in the sequence-based action recognition task and the competitive advantage over conventional architecture in the frame-based MOT task. We believe that the concept of streaming video model and the implementation of S-ViT are solid steps towards a unified deep learning architecture for video understanding. Code will be available at https://github.com/yuzhms/Streaming-Video-Model.
Abstract（参考訳）: ビデオ理解タスクは伝統的に2つの異なるアーキテクチャでモデル化されてきた。アクション認識などのシーケンスベースのビデオタスクは、ビデオバックボーンを使用して時空間的特徴を直接抽出する一方、マルチオブジェクトトラッキング(MOT)のようなフレームベースのビデオタスクは、空間的特徴を抽出するために単一の固定イメージバックボーンに依存する。対照的に,映像理解タスクを,ストリーミングビジョントランスフォーマー(s-vit)と呼ばれる,新たなストリーミングビデオアーキテクチャに統合することを提案する。 S-ViTはまず、フレームベースのビデオタスクを提供するために、メモリ対応の時空間エンコーダを備えたフレームレベル機能を生成する。次に、フレーム特徴をタスク関連時間デコーダに入力し、シーケンスベースタスクの時空間特徴を得る。 s-vitの効率と有効性は、シーケンスベース動作認識タスクにおける最先端精度と、フレームベースmotタスクにおける従来のアーキテクチャに対する競合優位性によって示される。ストリーミングビデオモデルの概念とs-vitの実装は、ビデオ理解のための統合ディープラーニングアーキテクチャに向けた確かなステップであると考えています。コードはhttps://github.com/yuzhms/Streaming-Video-Model.comから入手できる。

関連論文リスト

VACE: All-in-One Video Creation and Editing [18.809248697934397]
VACEにより、ユーザーは作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できる。 VACEを導入し、ユーザが作成と編集のためのオールインワンフレームワーク内でビデオタスクを実行できるようにする。
論文参考訳（メタデータ） (2025-03-10T17:57:04Z)
SyncVIS: Synchronized Video Instance Segmentation [48.75470418596875]
我々はSyncVISという新しいフレームワークを用いて同期モデリングを行う。 SyncVISはビデオレベルのクエリの埋め込みを明示的に導入し、ビデオレベルのクエリとフレームレベルのクエリの埋め込みを同期させる2つの主要なモジュールを設計する。提案手法は,提案手法の有効性と汎用性を実証し,最先端の結果を得る。
論文参考訳（メタデータ） (2024-12-01T16:43:20Z)
TANGO: Co-Speech Gesture Video Reenactment with Hierarchical Audio Motion Embedding and Diffusion Interpolation [4.019144083959918]
TANGO(Tango)は、音声による体温映像を生成するためのフレームワークである。 TANGOは、わずか数分間のシングルスピーカー参照ビデオから、ボディジェスチャーを同期させた高忠実度ビデオを生成する。
論文参考訳（メタデータ） (2024-10-05T16:30:46Z)
Spatio-temporal Prompting Network for Robust Video Feature Extraction [74.54597668310707]
フレームテンポラリ(Frametemporal)は、ビデオ理解の分野における大きな課題の1つだ。最近のアプローチでは、トランスフォーマーベースの統合モジュールを活用して、時間的品質情報を得る。 N-Temporal Prompting Network (NNSTP) という,クリーンで統一されたフレームワークを提案する。ネットワークバックボーン内の入力特徴を調整することで,映像特徴の抽出を効率的に行うことができる。
論文参考訳（メタデータ） (2024-02-04T17:52:04Z)
Multi-entity Video Transformers for Fine-Grained Video Representation Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-17T21:23:12Z)
Task Agnostic Restoration of Natural Video Dynamics [10.078712109708592]
多くのビデオ復元・翻訳タスクでは、各フレームを独立して処理することにより、画像処理操作を映像領域に「ナビ」拡張する。本稿では,不整合ビデオから一貫した動きのダイナミクスを推論し,活用して時間的フリックを緩和する,このタスクのための一般的なフレームワークを提案する。提案フレームワークは、多数の画像処理アプリケーションによって処理される2つのベンチマークデータセット、DAVISとvidevo.net上でSOTA結果を生成する。
論文参考訳（メタデータ） (2022-06-08T09:00:31Z)
Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。 2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文参考訳（メタデータ） (2022-02-22T11:40:09Z)
Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。 IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文参考訳（メタデータ） (2022-01-11T16:13:43Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Video Exploration via Video-Specific Autoencoders [60.256055890647595]
ヒト制御可能なビデオ探索を可能にするビデオ固有オートエンコーダを提案する。特定のビデオの複数のフレームで訓練された単純なオートエンコーダは、さまざまなビデオ処理および編集タスクを実行できることを観察します。
論文参考訳（メタデータ） (2021-03-31T17:56:13Z)
Dual Temporal Memory Network for Efficient Video Object Segmentation [42.05305410986511]
ビデオオブジェクト(VOS)の基本的な課題の1つは、時間情報を最大限活用してパフォーマンスを向上する方法である。本稿では,現在のフレームに先行する短・長期のビデオシーケンス情報を時間記憶として格納するエンド・ツー・エンド・ネットワークを提案する。我々のネットワークは、短期記憶サブネットワークと長期記憶サブネットワークを含む2つの時間的サブネットワークで構成されている。
論文参考訳（メタデータ） (2020-03-13T06:07:45Z)
Fine-Grained Instance-Level Sketch-Based Video Retrieval [159.12935292432743]
細粒度インスタンスレベルのスケッチベースビデオ検索(FG-SBVR)の新しいクロスモーダル検索問題を提案する。スケッチベースの静止画像検索や粗いカテゴリレベルのビデオ検索と比較すると、視覚的外観と動きの両方を微粒なレベルで同時にマッチングする必要があるため、これはより困難である。このモデルは,映像解析用に設計された既存の最先端モデルよりも大幅に優れていることを示す。
論文参考訳（メタデータ） (2020-02-21T18:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。