論文の概要: Online Spatiotemporal Action Detection and Prediction via Causal
Representations
- arxiv url: http://arxiv.org/abs/2008.13759v1
- Date: Mon, 31 Aug 2020 17:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-23 06:34:11.674438
- Title: Online Spatiotemporal Action Detection and Prediction via Causal
Representations
- Title(参考訳): 因果表現によるオンライン時空間行動検出と予測
- Authors: Gurkirt Singh
- Abstract要約: まず、従来のオフラインアクション検出パイプラインをオンラインアクションチューブ検出システムに変換することから始めます。
本稿では,既存の動作管を回帰的に未来へ拡張することで,そのような検出手法の今後の予測機能について検討する。
その後、オンライン/時間表現は、様々なタスクにおけるオフライン3次元畳み込みニューラルネットワーク(CNN)と同様のパフォーマンスが得られることを確かめる。
- 参考スコア(独自算出の注目度): 1.9798034349981157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this thesis, we focus on video action understanding problems from an
online and real-time processing point of view. We start with the conversion of
the traditional offline spatiotemporal action detection pipeline into an online
spatiotemporal action tube detection system. An action tube is a set of
bounding connected over time, which bounds an action instance in space and
time. Next, we explore the future prediction capabilities of such detection
methods by extending an existing action tube into the future by regression.
Later, we seek to establish that online/causal representations can achieve
similar performance to that of offline three dimensional (3D) convolutional
neural networks (CNNs) on various tasks, including action recognition, temporal
action segmentation and early prediction.
- Abstract(参考訳): 本論文では,オンラインおよびリアルタイム処理の観点からビデオアクション理解の問題に焦点をあてる。
まず、従来のオフライン時空間行動検出パイプラインをオンライン時空間行動管検出システムに変換することから始める。
アクションチューブ(英: action tube)とは、時間とともに連結された境界の集合であり、空間と時間でアクションインスタンスを束縛する。
次に,既存の動作管を回帰によって未来へ拡張することで,検出手法の将来予測能力を検討する。
その後,オフライン3次元畳み込みニューラルネットワーク(cnns)の動作認識,時間的動作分節化,早期予測など,様々なタスクにおいて,オンライン/コーサル表現が同等の性能を達成できることを示す。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - A Circular Window-based Cascade Transformer for Online Action Detection [27.880350187125778]
我々は,オンライン行動検出の新しい,効率的な原則を提唱する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
論文 参考訳(メタデータ) (2022-08-30T12:37:23Z) - Temporally smooth online action detection using cycle-consistent future
anticipation [26.150144140790943]
単純かつ効果的なRNNベースのネットワークであるFATSnetを用いて,オンライン行動検出のための新しいソリューションを提案する。
FATSnetは、教師なしの方法でトレーニングできる未来を予測するモジュールで構成されている。
また、非常に長いシーケンスでRNNベースのモデルを実行する際のパフォーマンス損失を軽減するソリューションも提案します。
論文 参考訳(メタデータ) (2021-04-16T11:00:19Z) - A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset [68.8204255655161]
行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
論文 参考訳(メタデータ) (2020-08-26T14:44:45Z) - TENet: Triple Excitation Network for Video Salient Object Detection [57.72696926903698]
我々は、ビデオ・サリエント・オブジェクト検出(VSOD)のトレーニングを強化するため、トリプル・エキサイティング・ネットワーク(Triple Excitation Network)というシンプルで効果的なアプローチを提案する。
これらの励磁機構は、カリキュラム学習の精神に従って設計され、訓練開始時の学習を減らすことを目的としている。
私たちの半カリキュラム学習設計では、VSODのオンライン戦略を初めて実現しています。
論文 参考訳(メタデータ) (2020-07-20T08:45:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - Spatio-Temporal Action Detection with Multi-Object Interaction [127.85524354900494]
本稿では,多目的インタラクションを用いたS時間動作検出問題について検討する。
マルチオブジェクトインタラクションを含むアクションチューブに空間的アノテーションを付加した新しいデータセットを提案する。
本研究では,空間的・時間的回帰を同時に行うエンド・ツー・エンドの時間的行動検出モデルを提案する。
論文 参考訳(メタデータ) (2020-04-01T00:54:56Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。