論文の概要: Comparative Analysis of Custom CNN Architectures versus Pre-trained Models and Transfer Learning: A Study on Five Bangladesh Datasets
- arxiv url: http://arxiv.org/abs/2601.04352v1
- Date: Wed, 07 Jan 2026 19:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.88946
- Title: Comparative Analysis of Custom CNN Architectures versus Pre-trained Models and Transfer Learning: A Study on Five Bangladesh Datasets
- Title(参考訳): カスタムCNNアーキテクチャと事前学習モデルとトランスファーラーニングの比較分析:バングラデシュの5つのデータセットについて
- Authors: Ibrahim Tanvir, Alif Ruslan, Sartaj Solaiman,
- Abstract要約: 微調整による転送学習は、スクラッチから構築されたカスタムCNNと特徴抽出の両方で、一貫してパフォーマンスが向上する。
カスタムCNNはモデルサイズ(3.4M パラメータ対 11-134M モデル)の利点を提供するが、トランスファーラーニングによる事前学習モデルは優れた性能を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study presents a comprehensive comparative analysis of custom-built Convolutional Neural Networks (CNNs) against popular pre-trained architectures (ResNet-18 and VGG-16) using both feature extraction and transfer learning approaches. We evaluated these models across five diverse image classification datasets from Bangladesh: Footpath Vision, Auto Rickshaw Detection, Mango Image Classification, Paddy Variety Recognition, and Road Damage Detection. Our experimental results demonstrate that transfer learning with fine-tuning consistently outperforms both custom CNNs built from scratch and feature extraction methods, achieving accuracy improvements ranging from 3% to 76% across different datasets. Notably, ResNet-18 with fine-tuning achieved perfect 100% accuracy on the Road Damage BD dataset. While custom CNNs offer advantages in model size (3.4M parameters vs. 11-134M for pre-trained models) and training efficiency on simpler tasks, pre-trained models with transfer learning provide superior performance, particularly on complex classification tasks with limited training data. This research provides practical insights for practitioners in selecting appropriate deep learning approaches based on dataset characteristics, computational resources, and performance requirements.
- Abstract(参考訳): 本研究では,特徴抽出と伝達学習の両手法を用いて,既存の事前学習アーキテクチャ(ResNet-18とVGG-16)に対するカスタム構築畳み込みニューラルネットワーク(CNN)の包括的比較分析を行った。
バングラデシュのフットパスビジョン,オートリックショー検出,マンゴー画像分類,水田品種認識,道路被害検出の5つの画像分類データセットを用いて,これらのモデルを評価した。
実験結果から,スクラッチから構築したカスタムCNNと特徴抽出法の両方において,微調整による伝達学習が一貫した性能を示し,異なるデータセットに対して3%から76%の精度向上を実現している。
特に、微調整されたResNet-18は、道路損傷BDデータセットで100%の精度を達成した。
カスタムCNNは、モデルサイズ(3.4M パラメータ対 11-134M モデル)と単純なタスクでのトレーニング効率の利点を提供するが、トランスファーラーニングによる事前訓練モデルは、特に限られた訓練データを持つ複雑な分類タスクにおいて、優れたパフォーマンスを提供する。
本研究は,データセットの特徴,計算資源,性能要件に基づく適切なディープラーニングアプローチを選択する実践者に対して,実践的な洞察を提供する。
関連論文リスト
- Training a Custom CNN on Five Heterogeneous Image Datasets [1.4583375893645076]
本研究では,農業・都市領域にまたがる5つのデータセットを対象としたCNNアーキテクチャの有効性について検討した。
これらのデータセットには、照明の差、解像度、環境の複雑さ、クラス不均衡など、さまざまな課題が導入されている。
我々は、ResNet-18やVGG-16など、確立したディープアーキテクチャとともに、軽量でタスク固有のカスタムCNNを評価し、スクラッチとトランスファーラーニングの両方を用いて訓練した。
論文 参考訳(メタデータ) (2026-01-08T08:44:17Z) - A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets [0.0]
畳み込みニューラルネットワーク(CNN)は、生のピクセルから階層的表現を学習する能力のため、視覚認識の標準的なアプローチである。
実際には、(i)コンパクトなカスタムCNNをスクラッチからトレーニングすること、(ii)大きな訓練済みCNNを固定特徴抽出器として使用すること、(iii)トレーニング済みのバックボーンの部分的または完全な微調整による転写学習を行うことがしばしばある。
本報告では,この3つのパラダイムを実世界の5つの画像分類データセットで比較した。
論文 参考訳(メタデータ) (2026-01-05T16:26:32Z) - Rethinking Pulmonary Embolism Segmentation: A Study of Current Approaches and Challenges with an Open Weight Model [21.024556007374684]
3Dモデルは、塞栓の形態的特徴から、この課題に特に適している。
CNNベースのモデルは一般的に、PEセグメンテーションにおけるVTベースのモデルよりも優れたパフォーマンスが得られる。
一方、タスクの複雑さと高品質なデータセットの不足のため、遠位塞栓は難しいままである。
論文 参考訳(メタデータ) (2025-09-22T18:34:30Z) - Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Efficient Transferability Assessment for Selection of Pre-trained Detectors [63.21514888618542]
本稿では,事前学習対象検出器の効率的な伝達性評価について検討する。
我々は、事前訓練された検出器の大規模で多様な動物園を含む検出器転送性ベンチマークを構築した。
実験により,本手法は伝達性の評価において,他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-03-14T14:23:23Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。