論文の概要: Streaming Video Temporal Action Segmentation In Real Time
- arxiv url: http://arxiv.org/abs/2209.13808v1
- Date: Wed, 28 Sep 2022 03:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:03:18.357396
- Title: Streaming Video Temporal Action Segmentation In Real Time
- Title(参考訳): ビデオの時間的アクションセグメンテーションをリアルタイムでストリーミングする
- Authors: Wujun Wen, Yunheng Li, Zhuben Dong, Lin Feng, Wanxiao Yang, Shenlan
Liu
- Abstract要約: 本稿では,リアルタイムの時間的動作分割タスクをリアルタイムにストリーミングするマルチモーダリティモデルを提案する。
我々のモデルは、最先端モデル計算の40%未満の時間で人間の動作をリアルタイムにセグメントし、全映像モデルの精度の90%を達成している。
- 参考スコア(独自算出の注目度): 3.4961786306972087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action segmentation (TAS) is a critical step toward long-term video
understanding. Recent studies follow a pattern that builds models based on
features instead of raw video picture information. However, we claim those
models are trained complicatedly and limit application scenarios. It is hard
for them to segment human actions of video in real time because they must work
after the full video features are extracted. As the real-time action
segmentation task is different from TAS task, we define it as streaming video
real-time temporal action segmentation (SVTAS) task. In this paper, we propose
a real-time end-to-end multi-modality model for SVTAS task. More specifically,
under the circumstances that we cannot get any future information, we segment
the current human action of streaming video chunk in real time. Furthermore,
the model we propose combines the last steaming video chunk feature extracted
by language model with the current image feature extracted by image model to
improve the quantity of real-time temporal action segmentation. To the best of
our knowledge, it is the first multi-modality real-time temporal action
segmentation model. Under the same evaluation criteria as full video temporal
action segmentation, our model segments human action in real time with less
than 40% of state-of-the-art model computation and achieves 90% of the accuracy
of the full video state-of-the-art model.
- Abstract(参考訳): テンポラリアクションセグメンテーション(tas)は、長期的なビデオ理解への重要なステップである。
近年の研究は、生の映像情報の代わりに特徴に基づくモデルを構築するパターンに従っている。
しかし、これらのモデルは複雑に訓練され、アプリケーションのシナリオを制限していると主張する。
ビデオの全特徴が抽出された後に動作しなければならないため、ビデオの人間の動作をリアルタイムでセグメント化することは困難である。
リアルタイムアクションセグメンテーションタスクはtasタスクとは異なるので、ストリーミングビデオリアルタイムアクションセグメンテーション(svtas)タスクと定義する。
本稿では,SVTASタスクのためのリアルタイムエンドツーエンドマルチモーダリティモデルを提案する。
具体的には、将来的な情報が得られない状況下では、ビデオチャンクをリアルタイムにストリーミングする現在の人間の行動を分類する。
さらに,本モデルでは,言語モデルが抽出した最後の蒸散映像特徴と,画像モデルが抽出した現在の画像特徴とを組み合わせることにより,リアルタイムな時間的行動セグメンテーションの量を改善する。
我々の知る限りでは、これは初めてのマルチモーダルリアルタイム時空間行動分割モデルである。
フルビデオの時間的動作セグメンテーションと同じ評価基準の下では,最先端のモデル計算の40%未満でリアルタイムにヒューマンアクションをセグメンテーションし,全映像の90%の精度を達成する。
関連論文リスト
- Top-down Activity Representation Learning for Video Question Answering [4.236280446793381]
複雑な階層的人間活動の獲得は、高性能ビデオ質問応答(VideoQA)の実現に不可欠である
長時間のビデオシーケンスを空間画像領域に変換し、ビデオQAタスクのためのマルチモーダルモデルLLaVAを微調整する。
提案手法は,STARタスク,特に78.4%の精度で,NExTQAタスクの2.8ポイント以上を達成している。
論文 参考訳(メタデータ) (2024-09-12T04:43:27Z) - SAM 2: Segment Anything in Images and Videos [63.44869623822368]
本稿では,画像やビデオにおける迅速な視覚的セグメンテーションの解決に向けた基礎モデルであるセグメンション・エキシング・モデル2(SAM2)を提案する。
ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集します。
我々のモデルは、リアルタイムビデオ処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャである。
論文 参考訳(メタデータ) (2024-08-01T17:00:08Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - How Much Temporal Long-Term Context is Needed for Action Segmentation? [16.89998201009075]
ビデオのフルコンテキストをキャプチャするために,スパークアテンションを利用するトランスフォーマーベースモデルを導入する。
本実験は,時間的動作セグメンテーションの最適性能を得るためには,ビデオの全コンテキストをモデル化する必要があることを示す。
論文 参考訳(メタデータ) (2023-08-22T11:20:40Z) - Self-Supervised Video Representation Learning via Latent Time Navigation [12.721647696921865]
自己教師付きビデオ表現学習は、1つのビデオの異なる時間セグメント間の類似性を最大化することを目的としている。
微粒な動きを捉えるために、LTN(Latent Time Navigation)を提案する。
実験により,LTNによる映像表現の学習は,動作分類の性能を一貫して向上させることが示された。
論文 参考訳(メタデータ) (2023-05-10T20:06:17Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。
本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。
その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文 参考訳(メタデータ) (2021-01-21T10:42:48Z) - Long Short-Term Relation Networks for Video Action Detection [155.13392337831166]
本稿では,Long Short-Term Relation Networks (LSTR)について述べる。
LSTRは、ビデオアクション検出のための拡張機能と関連して集約し、伝播する。
4つのベンチマークデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2020-03-31T10:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。