論文の概要: A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset
- arxiv url: http://arxiv.org/abs/2008.11588v1
- Date: Wed, 26 Aug 2020 14:44:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 21:47:05.785336
- Title: A Prospective Study on Sequence-Driven Temporal Sampling and Ego-Motion
Compensation for Action Recognition in the EPIC-Kitchens Dataset
- Title(参考訳): EPIC-Kitchensデータセットにおけるシーケンス駆動型時間サンプリングとエゴ運動補償に関する前向き研究
- Authors: Alejandro L\'opez-Cifuentes, Marcos Escudero-Vi\~nolo, Jes\'us
Besc\'os
- Abstract要約: 行動認識はコンピュータビジョンにおける最上位の研究分野の一つである。
エゴモーション記録シーケンスは重要な関連性を持つようになった。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition is currently one of the top-challenging research fields in
computer vision. Convolutional Neural Networks (CNNs) have significantly
boosted its performance but rely on fixed-size spatio-temporal windows of
analysis, reducing CNNs temporal receptive fields. Among action recognition
datasets, egocentric recorded sequences have become of important relevance
while entailing an additional challenge: ego-motion is unavoidably transferred
to these sequences. The proposed method aims to cope with it by estimating this
ego-motion or camera motion. The estimation is used to temporally partition
video sequences into motion-compensated temporal \textit{chunks} showing the
action under stable backgrounds and allowing for a content-driven temporal
sampling. A CNN trained in an end-to-end fashion is used to extract temporal
features from each \textit{chunk}, which are late fused. This process leads to
the extraction of features from the whole temporal range of an action,
increasing the temporal receptive field of the network.
- Abstract(参考訳): アクション認識は現在、コンピュータビジョンにおける最上位の研究分野の1つである。
畳み込みニューラルネットワーク(CNN)は、その性能を大幅に向上させたが、解析の固定サイズの時空間ウィンドウに依存し、CNNの時間受容領域を減少させた。
アクション認識データセットでは、エゴセントリックな記録シーケンスが重要な関連性を持つ一方で、追加の課題も伴っている。
提案手法は,このエゴモーションやカメラの動きを推定して対処することを目的としている。
この推定は、ビデオシーケンスを、安定した背景下での動作を示し、コンテンツ駆動のテンポラリサンプリングを可能にする動き補償されたテンポラリ \textit{chunks}に時間分割するために使用される。
エンドツーエンドでトレーニングされたCNNを使用して、遅れた各 \textit{chunk} から時間的特徴を抽出する。
このプロセスは、動作の時間的範囲全体から特徴を抽出し、ネットワークの時間的受容野を増加させる。
関連論文リスト
- TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - Spatiotemporal Transformer Attention Network for 3D Voxel Level Joint
Segmentation and Motion Prediction in Point Cloud [9.570438238511073]
自動走行システムとインテリジェント輸送アプリケーションにとって、モーション予測は重要な有効性である。
現在の課題は、異なる知覚タスクを単一のバックボーンに効果的に組み合わせることである。
本稿では,共同セマンティックセグメンテーションのためのトランスフォーマ自己アテンション機構に基づく新しいアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-28T23:18:27Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Continuity-Discrimination Convolutional Neural Network for Visual Object
Tracking [150.51667609413312]
本稿では,視覚オブジェクト追跡のためのContinuity-Discrimination Convolutional Neural Network (CD-CNN) という新しいモデルを提案する。
この問題に対処するため、cd-cnnは時間的遅れの概念に基づいた時間的外観連続性をモデル化する。
不正確なターゲットの定位とドリフトを緩和するために,新しい概念 object-centroid を提案する。
論文 参考訳(メタデータ) (2021-04-18T06:35:03Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Multivariate Time Series Classification Using Spiking Neural Networks [7.273181759304122]
スパイクニューラルネットワークは低消費電力を可能にするため注目されている。
本稿では,時系列をスパース時空間スパイクパターンに変換する符号化方式を提案する。
空間時間パターンを分類する学習アルゴリズムも提案する。
論文 参考訳(メタデータ) (2020-07-07T15:24:01Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。