論文の概要: 3DPyranet Features Fusion for Spatio-temporal Feature Learning
- arxiv url: http://arxiv.org/abs/2504.18977v1
- Date: Sat, 26 Apr 2025 17:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.07345
- Title: 3DPyranet Features Fusion for Spatio-temporal Feature Learning
- Title(参考訳): 時空間特徴学習のための3DPyranet Features Fusion
- Authors: Ihsan Ullah, Alfredo Petrosino,
- Abstract要約: 3DPyraNetと呼ばれる3次元ピラミッド状神経ピラミッドと3DPyraNet-Fと呼ばれる分別時間的特徴学習のための識別的アプローチを提案する。
3DPyraNet-Fは学習したネットワークの最も高い層の特徴マップを抽出し、それらを単一のベクトルに融合し、線形SVMへの入力として提供する。
3DPyraNetを実環境、特にカメラ誘起運動の有無で報告した。
- 参考スコア(独自算出の注目度): 2.327279581393927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural network (CNN) slides a kernel over the whole image to produce an output map. This kernel scheme reduces the number of parameters with respect to a fully connected neural network (NN). While CNN has proven to be an effective model in recognition of handwritten characters and traffic signal sign boards, etc. recently, its deep variants have proven to be effective in similar as well as more challenging applications like object, scene and action recognition. Deep CNN add more layers and kernels to the classical CNN, increasing the number of parameters, and partly reducing the main advantage of CNN which is less parameters. In this paper, a 3D pyramidal neural network called 3DPyraNet and a discriminative approach for spatio-temporal feature learning based on it, called 3DPyraNet-F, are proposed. 3DPyraNet introduces a new weighting scheme which learns features from both spatial and temporal dimensions analyzing multiple adjacent frames and keeping a biological plausible structure. It keeps the spatial topology of the input image and presents fewer parameters and lower computational and memory costs compared to both fully connected NNs and recent deep CNNs. 3DPyraNet-F extract the features maps of the highest layer of the learned network, fuse them in a single vector, and provide it as input in such a way to a linear-SVM classifier that enhances the recognition of human actions and dynamic scenes from the videos. Encouraging results are reported with 3DPyraNet in real-world environments, especially in the presence of camera induced motion. Further, 3DPyraNet-F clearly outperforms the state-of-the-art on three benchmark datasets and shows comparable result for the fourth.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、イメージ全体にカーネルをスライドさせて出力マップを生成する。
このカーネルスキームは、完全に接続されたニューラルネットワーク(NN)に対するパラメータの数を減少させる。
近年、CNNは手書き文字や信号機看板などの認識に有効なモデルであることが証明されているが、その深いバリエーションは、オブジェクト、シーン、アクション認識といったより困難なアプリケーションと同様に、同様に有効であることが証明されている。
Deep CNNは、従来のCNNにより多くのレイヤとカーネルを追加し、パラメータの数を増やし、パラメータが少ないCNNの主な利点を部分的に減らした。
本稿では,3DPyraNetと呼ばれる3次元ピラミッド型ニューラルネットワークと,それに基づく時空間特徴学習のための識別的アプローチを提案し,これを3DPyraNet-Fと呼ぶ。
3DPyraNetは、複数の隣接するフレームを分析し、生物学的な可視構造を維持するために、空間次元と時間次元の両方から特徴を学習する新しい重み付け方式を導入した。
入力画像の空間トポロジを保ち、完全に接続されたNNと最近のディープCNNと比較して少ないパラメータと少ない計算とメモリコストを提示する。
3DPyraNet-Fは学習したネットワークの最高層の特徴マップを抽出し、それらを単一のベクトルに融合させ、ビデオからの人間の行動や動的なシーンの認識を強化する線形SVM分類器への入力として提供する。
3DPyraNetを実環境、特にカメラ誘起運動の有無で実施した。
さらに、3DPyraNet-Fは、3つのベンチマークデータセットで最先端を明らかに上回り、4番目の結果に匹敵する結果を示している。
関連論文リスト
- SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded
Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。
本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:20:52Z) - PocketNet: A Smaller Neural Network for 3D Medical Image Segmentation [0.0]
私たちは、パラメータの数の3%未満を使用しながら、従来のCNNに匹敵するセグメンテーション結果を達成するPocketNetと呼ばれる新しいCNNアーキテクチャを導き出します。
我々は,PocketNetが従来のCNNに匹敵するセグメンテーション結果を達成し,パラメータ数の3%未満を用いていることを示す。
論文 参考訳(メタデータ) (2021-04-21T20:10:30Z) - RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs [32.054160078692036]
3D CNNを高いスパーシティレベルにプルーンするResource Aware Neuron Pruning (RANP)アルゴリズムを紹介します。
提案アルゴリズムは, FLOPの約50%-95%の削減, メモリの35%-80%の削減を実現している。
論文 参考訳(メタデータ) (2021-02-09T04:35:29Z) - Learning Hybrid Representations for Automatic 3D Vessel Centerline
Extraction [57.74609918453932]
3次元医用画像からの血管の自動抽出は血管疾患の診断に不可欠である。
既存の方法では、3次元画像からそのような細い管状構造を分割する際に、抽出された容器の不連続に悩まされることがある。
抽出された船舶の連続性を維持するためには、地球的幾何学を考慮に入れる必要があると論じる。
この課題を解決するためのハイブリッド表現学習手法を提案します。
論文 参考訳(メタデータ) (2020-12-14T05:22:49Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs [32.431100361351675]
本稿では,3次元CNNを高頻度で作成するRANPアルゴリズムを提案する。
具体的には、損失関数に対する感度に基づいて、各ニューロンに対して重要なスコアを得る。
このニューロンの重要性は、FLOPや記憶に関連するニューロン資源の消費に応じて再重み付けされる。
論文 参考訳(メタデータ) (2020-10-06T05:34:39Z) - Local Grid Rendering Networks for 3D Object Detection in Point Clouds [98.02655863113154]
CNNは強力だが、全点の雲を高密度の3Dグリッドに酸化した後、点データに直接畳み込みを適用するのは計算コストがかかる。
入力点のサブセットの小さな近傍を低解像度の3Dグリッドに独立してレンダリングする,新しい,原理化されたローカルグリッドレンダリング(LGR)演算を提案する。
ScanNetとSUN RGB-Dデータセットを用いた3次元オブジェクト検出のためのLGR-Netを検証する。
論文 参考訳(メタデータ) (2020-07-04T13:57:43Z) - PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection [76.30585706811993]
我々はPointVoxel-RCNN(PV-RCNN)という新しい高性能な3Dオブジェクト検出フレームワークを提案する。
提案手法は3次元ボクセル畳み込みニューラルネットワーク(CNN)とPointNetベースの集合抽象化の両方を深く統合する。
3DボクセルCNNの効率的な学習と高品質な提案と、PointNetベースのネットワークのフレキシブル・レセプティブ・フィールドを利用する。
論文 参考訳(メタデータ) (2019-12-31T06:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。