論文の概要: Spatiotemporal Fusion in 3D CNNs: A Probabilistic View
- arxiv url: http://arxiv.org/abs/2004.04981v1
- Date: Fri, 10 Apr 2020 10:40:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 21:12:14.397967
- Title: Spatiotemporal Fusion in 3D CNNs: A Probabilistic View
- Title(参考訳): 3次元cnnにおける時空間融合 : 確率論的考察
- Authors: Yizhou Zhou, Xiaoyan Sun, Chong Luo, Zheng-Jun Zha and Wenjun Zeng
- Abstract要約: そこで我々は,時間的融合戦略の成功を確率に変換することを提案する。これにより,個別に訓練することなく,様々な融合戦略のネットワークレベルの評価を行うことができる。
本手法は時間融合解析の効率を大幅に向上させる。
我々は4つの精密な行動認識データセット上で最先端の性能を達成するための新たな融合戦略を生成する。
- 参考スコア(独自算出の注目度): 129.84064609199663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success in still image recognition, deep neural networks for
spatiotemporal signal tasks (such as human action recognition in videos) still
suffers from low efficacy and inefficiency over the past years. Recently, human
experts have put more efforts into analyzing the importance of different
components in 3D convolutional neural networks (3D CNNs) to design more
powerful spatiotemporal learning backbones. Among many others, spatiotemporal
fusion is one of the essentials. It controls how spatial and temporal signals
are extracted at each layer during inference. Previous attempts usually start
by ad-hoc designs that empirically combine certain convolutions and then draw
conclusions based on the performance obtained by training the corresponding
networks. These methods only support network-level analysis on limited number
of fusion strategies. In this paper, we propose to convert the spatiotemporal
fusion strategies into a probability space, which allows us to perform
network-level evaluations of various fusion strategies without having to train
them separately. Besides, we can also obtain fine-grained numerical information
such as layer-level preference on spatiotemporal fusion within the probability
space. Our approach greatly boosts the efficiency of analyzing spatiotemporal
fusion. Based on the probability space, we further generate new fusion
strategies which achieve the state-of-the-art performance on four well-known
action recognition datasets.
- Abstract(参考訳): 静止画像認識の成功にもかかわらず、時空間的信号処理のためのディープニューラルネットワーク(ビデオでのヒューマンアクション認識など)は、過去数年間、低い効果と非効率に苦しめられている。
近年、人間の専門家は、3D畳み込みニューラルネットワーク(3D CNN)における異なるコンポーネントの重要性を分析して、より強力な時空間学習バックボーンを設計している。
多くの場合、時空間融合は必須の1つである。
推論中の各層における空間的および時間的信号の抽出方法を制御する。
従来の試みは通常、特定の畳み込みを経験的に組み合わせたアドホックな設計から始まり、それに対応するネットワークをトレーニングして得られる性能に基づいて結論を導き出す。
これらの手法は、限られた数の核融合戦略のネットワークレベル分析のみをサポートする。
本稿では,時空間的融合戦略を確率空間に変換し,それらを個別に訓練することなく,様々な融合戦略をネットワークレベルで評価する手法を提案する。
また,確率空間内の時空間融合に対する層レベルの選好などの細かな数値情報を得ることもできる。
このアプローチは時空間融合解析の効率を大きく向上させる。
確率空間に基づいて、4つのよく知られた行動認識データセットの最先端性能を達成するための新たな融合戦略を生成する。
関連論文リスト
- Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - Research on Data Fusion Algorithm Based on Deep Learning in Target
Tracking [10.335589214502987]
長期記憶ネットワークに基づく視線追跡データ融合アルゴリズムを提案する。
実験の結果, 深層学習に基づく2つの融合アルゴリズムと比較して, 本論文では, 融合品質の点で良好に動作することがわかった。
論文 参考訳(メタデータ) (2022-11-23T08:44:59Z) - ChiNet: Deep Recurrent Convolutional Learning for Multimodal Spacecraft
Pose Estimation [3.964047152162558]
本稿では,ランデブーシーケンスからの時間情報を組み込んで,宇宙船の相対的な姿勢を推定する革新的な深層学習パイプラインを提案する。
畳み込みニューラルネットワーク(CNN)バックボーンによって抽出された特徴の処理のために、データのシーケンスをモデル化する上で、LSTM(Long Short-term memory)ユニットのパフォーマンスを活用する。
3つの異なるトレーニング戦略が組み合わさって、特徴学習を容易にし、回帰によるエンドツーエンドのポーズ推定を改善する。
論文 参考訳(メタデータ) (2021-08-23T16:48:58Z) - Progressive Spatio-Temporal Bilinear Network with Monte Carlo Dropout
for Landmark-based Facial Expression Recognition with Uncertainty Estimation [93.73198973454944]
提案手法の性能は, 広く使用されている3つのデータセットで評価される。
ビデオベースの最先端の手法に匹敵するが、複雑さははるかに少ない。
論文 参考訳(メタデータ) (2021-06-08T13:40:30Z) - A Study On the Effects of Pre-processing On Spatio-temporal Action
Recognition Using Spiking Neural Networks Trained with STDP [0.0]
ビデオ分類タスクにおいて,教師なし学習手法で訓練したSNNの行動を研究することが重要である。
本稿では,時間情報を静的な形式に変換し,遅延符号化を用いて視覚情報をスパイクに変換する手法を提案する。
スパイクニューラルネットワークを用いた行動認識における行動の形状と速度の類似性の効果を示す。
論文 参考訳(メタデータ) (2021-05-31T07:07:48Z) - Group-Skeleton-Based Human Action Recognition in Complex Events [15.649778891665468]
本稿では,複合イベントにおけるグループ骨格に基づく人間行動認識手法を提案する。
本手法はまず,マルチスケール空間時間グラフ畳み込みネットワーク(MS-G3D)を用いて,複数の人物から骨格の特徴を抽出する。
HiEveデータセットの結果から,本手法は他の最先端手法と比較して優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-11-26T13:19:14Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z) - Parallelization Techniques for Verifying Neural Networks [52.917845265248744]
検証問題に基づくアルゴリズムを反復的に導入し、2つの分割戦略を探索する。
また、ニューラルネットワークの検証問題を単純化するために、ニューロンアクティベーションフェーズを利用する、高度に並列化可能な前処理アルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-04-17T20:21:47Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。