論文の概要: A Comprehensive Survey on Architectural Advances in Deep CNNs: Challenges, Applications, and Emerging Research Directions
- arxiv url: http://arxiv.org/abs/2503.16546v1
- Date: Wed, 19 Mar 2025 08:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:50.140368
- Title: A Comprehensive Survey on Architectural Advances in Deep CNNs: Challenges, Applications, and Emerging Research Directions
- Title(参考訳): ディープCNNにおけるアーキテクチャの進歩に関する包括的調査--課題、応用、新たな研究方向性
- Authors: Saddam Hussain Khan, Rashid Iqbal,
- Abstract要約: CNNは、コンピュータビジョン、自然言語処理、診断、物体検出、音声認識におけるブレークスルーを推進している。
本研究では,空間的利用,マルチパス構造,深さ,幅,次元展開,チャネルの促進,注意機構に基づいてCNNアーキテクチャを分類する統合分類法を提案する。
顔認識、ポーズ推定、行動認識、テキスト分類、統計言語モデリング、疾患診断、放射線分析、暗号通貨の感情予測、1Dデータ処理、ビデオ分析、音声認識におけるCNNの応用を体系的にレビューする。
- 参考スコア(独自算出の注目度): 1.0523436939538895
- License:
- Abstract: Deep Convolutional Neural Networks (CNNs) have significantly advanced deep learning, driving breakthroughs in computer vision, natural language processing, medical diagnosis, object detection, and speech recognition. Architectural innovations including 1D, 2D, and 3D convolutional models, dilated and grouped convolutions, depthwise separable convolutions, and attention mechanisms address domain-specific challenges and enhance feature representation and computational efficiency. Structural refinements such as spatial-channel exploitation, multi-path design, and feature-map enhancement contribute to robust hierarchical feature extraction and improved generalization, particularly through transfer learning. Efficient preprocessing strategies, including Fourier transforms, structured transforms, low-precision computation, and weight compression, optimize inference speed and facilitate deployment in resource-constrained environments. This survey presents a unified taxonomy that classifies CNN architectures based on spatial exploitation, multi-path structures, depth, width, dimensionality expansion, channel boosting, and attention mechanisms. It systematically reviews CNN applications in face recognition, pose estimation, action recognition, text classification, statistical language modeling, disease diagnosis, radiological analysis, cryptocurrency sentiment prediction, 1D data processing, video analysis, and speech recognition. In addition to consolidating architectural advancements, the review highlights emerging learning paradigms such as few-shot, zero-shot, weakly supervised, federated learning frameworks and future research directions include hybrid CNN-transformer models, vision-language integration, generative learning, etc. This review provides a comprehensive perspective on CNN's evolution from 2015 to 2025, outlining key innovations, challenges, and opportunities.
- Abstract(参考訳): 深層畳み込みニューラルネットワーク(Deep Convolutional Neural Networks, CNN)は、コンピュータビジョン、自然言語処理、診断、物体検出、音声認識におけるブレークスルーを推進している。
1D、2D、3D畳み込みモデル、拡張およびグループ畳み込み、深く分離可能な畳み込み、そして注意機構はドメイン固有の課題に対処し、特徴表現と計算効率を向上させる。
空間チャネルの活用、マルチパス設計、特徴マップの強化といった構造的洗練は、堅牢な階層的特徴抽出と、特に伝達学習による一般化の改善に寄与する。
フーリエ変換、構造化変換、低精度計算、重み圧縮を含む効率的な事前処理戦略は、推論速度を最適化し、資源制約のある環境への展開を容易にする。
本研究では,空間的利用,マルチパス構造,深さ,幅,次元展開,チャネルの促進,注意機構に基づいてCNNアーキテクチャを分類する統合分類法を提案する。
顔認識、ポーズ推定、行動認識、テキスト分類、統計言語モデリング、疾患診断、放射線分析、暗号通貨の感情予測、1Dデータ処理、ビデオ分析、音声認識におけるCNNの応用を体系的にレビューする。
アーキテクチャの進歩の強化に加えて、このレビューでは、少数ショット、ゼロショット、弱教師付き、フェデレートされた学習フレームワークなどの新たな学習パラダイムと、ハイブリッドCNN変換モデル、ビジョン言語統合、生成学習など、今後の研究方向性を強調している。
このレビューは、2015年から2025年までのCNNの進化に関する総合的な見解を提供し、重要なイノベーション、課題、機会を概説している。
関連論文リスト
- From Noise to Nuance: Advances in Deep Generative Image Models [8.802499769896192]
ディープラーニングに基づく画像生成は、2021年以来パラダイムシフトを続けてきた。
安定拡散, DALL-E, 一貫性モデルの最近の進歩は, 画像合成の能力と性能の境界を再定義している。
マルチモーダル理解とゼロショット生成能力の強化が,産業全体にわたる実践的応用をいかに変えつつあるかを検討する。
論文 参考訳(メタデータ) (2024-12-12T02:09:04Z) - Towards Advanced Speech Signal Processing: A Statistical Perspective on Convolution-Based Architectures and its Applications [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)、コンフォーマー、ResNet、および音声信号処理モデルとしてのCRNNを含む畳み込みモデルについて調査する。
各モデルの長所と短所を比較し、潜在的な誤りを特定し、さらなる研究の道筋を提案し、それが音声技術の進歩に果たす中心的な役割を強調した。
論文 参考訳(メタデータ) (2024-11-20T13:01:30Z) - A Comprehensive Survey of Convolutions in Deep Learning: Applications,
Challenges, and Future Trends [5.76466022747257]
畳み込みニューラルネットワーク(CNN)は、画像分類、オブジェクト検出、画像分割といった様々なコンピュータビジョンタスクに使用される。
1D、2D、3D CNNなど、特定のニーズと要求を満たすように設計されたCNNには、数多くの種類がある。
これらの異なるCNNタイプを比較して、それらの長所と短所を理解するためには、徹底的な理解を得ることが重要です。
論文 参考訳(メタデータ) (2024-02-23T18:28:57Z) - Integration and Performance Analysis of Artificial Intelligence and
Computer Vision Based on Deep Learning Algorithms [5.734290974917728]
本稿では,ディープラーニングとコンピュータビジョン技術の統合による応用効果の分析に焦点をあてる。
ディープラーニングは階層型ニューラルネットワークを構築することで歴史的なブレークスルーを実現し、エンドツーエンドの機能学習と画像の意味的理解を可能にする。
コンピュータビジョンの分野で成功した経験は、ディープラーニングアルゴリズムのトレーニングに強力なサポートを提供する。
論文 参考訳(メタデータ) (2023-12-20T09:37:06Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Deep neural networks architectures from the perspective of manifold
learning [0.0]
本稿では,ゲノメトリとトポロジの観点から,ニューラルネットワークアーキテクチャの包括的比較と記述を行う。
我々は、ニューラルネットワークの内部表現と、異なる層上のデータ多様体のトポロジーと幾何学の変化のダイナミクスに焦点を当てる。
論文 参考訳(メタデータ) (2023-06-06T04:57:39Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Tensor Methods in Computer Vision and Deep Learning [120.3881619902096]
テンソル(tensor)は、複数の次元の視覚データを自然に表現できるデータ構造である。
コンピュータビジョンにおけるディープラーニングパラダイムシフトの出現により、テンソルはさらに基本的なものになっている。
本稿では,表現学習と深層学習の文脈において,テンソルとテンソル法を深く,実践的に検討する。
論文 参考訳(メタデータ) (2021-07-07T18:42:45Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers [111.55817466296402]
我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
論文 参考訳(メタデータ) (2020-11-27T08:48:43Z) - Deep Learning for Community Detection: Progress, Challenges and
Opportunities [79.26787486888549]
この記事では、ディープニューラルネットワークにおける様々なフレームワーク、モデル、アルゴリズムの貢献について要約する。
この記事では、ディープニューラルネットワークにおける様々なフレームワーク、モデル、アルゴリズムの貢献について要約する。
論文 参考訳(メタデータ) (2020-05-17T11:22:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。