論文の概要: Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning
- arxiv url: http://arxiv.org/abs/2207.11504v1
- Date: Sat, 23 Jul 2022 12:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 13:25:06.242094
- Title: Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning
- Title(参考訳): ディープラーニングを用いたマルチメディアデータ分類のためのインテリジェント3Dネットワークプロトコル
- Authors: Arslan Syed, Eman A. Aldhahri, Muhammad Munawar Iqbal, Abid Ali, Ammar
Muthanna, Harun Jamil, and Faisal Jamil
- Abstract要約: 我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In videos, the human's actions are of three-dimensional (3D) signals. These
videos investigate the spatiotemporal knowledge of human behavior. The
promising ability is investigated using 3D convolution neural networks (CNNs).
The 3D CNNs have not yet achieved high output for their well-established
two-dimensional (2D) equivalents in still photographs. Board 3D Convolutional
Memory and Spatiotemporal fusion face training difficulty preventing 3D CNN
from accomplishing remarkable evaluation. In this paper, we implement Hybrid
Deep Learning Architecture that combines STIP and 3D CNN features to enhance
the performance of 3D videos effectively. After implementation, the more
detailed and deeper charting for training in each circle of space-time fusion.
The training model further enhances the results after handling complicated
evaluations of models. The video classification model is used in this
implemented model. Intelligent 3D Network Protocol for Multimedia Data
Classification using Deep Learning is introduced to further understand
spacetime association in human endeavors. In the implementation of the result,
the well-known dataset, i.e., UCF101 to, evaluates the performance of the
proposed hybrid technique. The results beat the proposed hybrid technique that
substantially beats the initial 3D CNNs. The results are compared with
state-of-the-art frameworks from literature for action recognition on UCF101
with an accuracy of 95%.
- Abstract(参考訳): ビデオでは、人間の動作は3次元(3d)信号である。
これらのビデオは人間の行動の時空間的知識を調査している。
提案する能力は3次元畳み込みニューラルネットワーク(CNN)を用いて検討する。
3D CNNは、静止画で確立された2次元(2D)相当の高出力をまだ達成していない。
ボード3次元畳み込み記憶と時空間融合顔訓練難易度による3次元cnnの著明な評価
本稿では,STIPと3D CNNを組み合わせたハイブリッドディープラーニングアーキテクチャを実装し,3Dビデオの性能向上を図る。
実装後、時空融合の各円におけるトレーニングのためのより詳細により深いチャートを作成する。
トレーニングモデルは、モデルの複雑な評価を処理した後の結果をさらに強化する。
この実装モデルではビデオ分類モデルが使用される。
深層学習を用いたマルチメディアデータ分類のためのインテリジェント3Dネットワークプロトコルを導入し,人間の努力による時空関連性をさらに理解した。
結果の実装において、UCF101の有名なデータセットは、提案したハイブリッド技術の性能を評価する。
その結果,初期の3D CNNをはるかに上回るハイブリッド技術が得られた。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
関連論文リスト
- Hybrid CNN Bi-LSTM neural network for Hyperspectral image classification [1.2691047660244332]
本稿では,3次元CNN,2次元CNN,Bi-LSTMを組み合わせたニューラルネットワークを提案する。
99.83、99.98、100%の精度を達成でき、それぞれIP、PU、SAデータセットにおける最先端モデルのトレーニング可能なパラメータは30%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-15T15:46:13Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - Hyperspectral Image Classification: Artifacts of Dimension Reduction on
Hybrid CNN [1.2875323263074796]
2Dおよび3DCNNモデルは、ハイパースペクトル画像の空間的およびスペクトル情報を利用するのに非常に効率的であることが証明されている。
この研究は、計算コストを大幅に削減する軽量CNN(3Dと2D-CNN)モデルを提案した。
論文 参考訳(メタデータ) (2021-01-25T18:43:57Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z) - 2.75D: Boosting learning by representing 3D Medical imaging to 2D
features for small data [54.223614679807994]
3D畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングタスクにおいて、2D CNNよりも優れたパフォーマンスを示し始めている。
3D CNNにトランスファー学習を適用することは、パブリックにトレーニング済みの3Dモデルがないために困難である。
本研究では,ボリュームデータの2次元戦略的表現,すなわち2.75Dを提案する。
その結果,2次元CNNネットワークをボリューム情報学習に用いることが可能となった。
論文 参考訳(メタデータ) (2020-02-11T08:24:19Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。