論文の概要: Three-stream network for enriched Action Recognition
- arxiv url: http://arxiv.org/abs/2104.13051v1
- Date: Tue, 27 Apr 2021 08:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 19:52:50.445091
- Title: Three-stream network for enriched Action Recognition
- Title(参考訳): リッチアクション認識のための3ストリームネットワーク
- Authors: Ivaxi Sheth
- Abstract要約: 本稿では,3つのストリームを持つCNNベースの2つのアーキテクチャを提案する。
UCF-101, Kinetics-600, AVAデータセット上で様々なアルゴリズムを実験することにより, 提案したモデルが人間の行動認識タスクの最先端性能を達成することを観察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding accurate information on human behaviours is one of the most
important tasks in machine intelligence. Human Activity Recognition that aims
to understand human activities from a video is a challenging task due to
various problems including background, camera motion and dataset variations.
This paper proposes two CNN based architectures with three streams which allow
the model to exploit the dataset under different settings. The three pathways
are differentiated in frame rates. The single pathway, operates at a single
frame rate captures spatial information, the slow pathway operates at low frame
rates captures the spatial information and the fast pathway operates at high
frame rates that capture fine temporal information. Post CNN encoders, we add
bidirectional LSTM and attention heads respectively to capture the context and
temporal features. By experimenting with various algorithms on UCF-101,
Kinetics-600 and AVA dataset, we observe that the proposed models achieve
state-of-art performance for human action recognition task.
- Abstract(参考訳): 人間の行動に関する正確な情報を理解することは、マシンインテリジェンスにおいて最も重要なタスクの1つである。
ビデオから人間の活動を理解することを目的とした人間の活動認識は、背景、カメラの動き、データセットのバリエーションなど様々な問題のために難しい課題である。
本稿では,3つのストリームを持つcnnベースの2つのアーキテクチャを提案する。
3つの経路はフレームレートで区別される。
単一経路は単一フレームレートで動作し、スロー経路は低フレームレートで動作し、高速経路は微妙な時間情報をキャプチャする高フレームレートで動作する。
CNNエンコーダの後,2方向LSTMとアテンションヘッドをそれぞれ追加して,コンテキストと時間的特徴をキャプチャする。
UCF-101, Kinetics-600, AVAデータセット上で様々なアルゴリズムを実験することにより, 提案したモデルが人間の行動認識タスクの最先端性能を達成することを観察する。
関連論文リスト
- Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - The influence of labeling techniques in classifying human manipulation
movement of different speed [2.9972063833424216]
マーカーを用いたモーションキャプチャーシステムを用いて記録したデータに対して,ラベル付け手法が人間の動作の分類に与える影響について検討した。
このデータセットは2つの異なるアプローチを用いてラベル付けされる。1つは動きのビデオデータに基づくもので、もう1つはモーションキャプチャシステムを用いて記録された動き軌跡に基づくものである。
論文 参考訳(メタデータ) (2022-02-04T23:04:22Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。