論文の概要: A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets
- arxiv url: http://arxiv.org/abs/2601.02246v1
- Date: Mon, 05 Jan 2026 16:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.271103
- Title: A Comparative Study of Custom CNNs, Pre-trained Models, and Transfer Learning Across Multiple Visual Datasets
- Title(参考訳): 複数のビジュアルデータセット間でのカスタムCNN、事前学習モデル、移動学習の比較検討
- Authors: Annoor Sharara Akhand,
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、生のピクセルから階層的表現を学習する能力のため、視覚認識の標準的なアプローチである。
実際には、(i)コンパクトなカスタムCNNをスクラッチからトレーニングすること、(ii)大きな訓練済みCNNを固定特徴抽出器として使用すること、(iii)トレーニング済みのバックボーンの部分的または完全な微調整による転写学習を行うことがしばしばある。
本報告では,この3つのパラダイムを実世界の5つの画像分類データセットで比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Convolutional Neural Networks (CNNs) are a standard approach for visual recognition due to their capacity to learn hierarchical representations from raw pixels. In practice, practitioners often choose among (i) training a compact custom CNN from scratch, (ii) using a large pre-trained CNN as a fixed feature extractor, and (iii) performing transfer learning via partial or full fine-tuning of a pre-trained backbone. This report presents a controlled comparison of these three paradigms across five real-world image classification datasets spanning road-surface defect recognition, agricultural variety identification, fruit/leaf disease recognition, pedestrian walkway encroachment recognition, and unauthorized vehicle recognition. Models are evaluated using accuracy and macro F1-score, complemented by efficiency metrics including training time per epoch and parameter counts. The results show that transfer learning consistently yields the strongest predictive performance, while the custom CNN provides an attractive efficiency--accuracy trade-off, especially when compute and memory budgets are constrained.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、生のピクセルから階層的表現を学習する能力のため、視覚認識の標準的なアプローチである。
実践者が選ぶ場合が多い。
(i)コンパクトなカスタムCNNをスクラッチからトレーニングすること。
二 大型予修CNNを固定特徴抽出器として使用すること、及び
三 事前訓練したバックボーンの部分的又は完全微調整による転写学習を行うこと。
本報告では, 道路表面欠陥認識, 農業品種識別, 果物・葉病認識, 歩行者歩行路の侵入認識, 無許可車両認識にまたがる5つの実世界の画像分類データセットに対して, これら3つのパラダイムを制御した比較を行った。
モデルは精度とマクロF1スコアを用いて評価され、エポック毎のトレーニング時間やパラメータ数を含む効率指標で補完される。
その結果,特に計算とメモリの予算が制約された場合,伝達学習が最強の予測性能を得るのに対して,カスタムCNNは魅力的な効率-精度のトレードオフを提供することがわかった。
関連論文リスト
- Bayesian Topological Convolutional Neural Nets [0.5985483103102681]
畳み込みニューラルネットワーク(CNN)は、画像データ処理における主要なワークホースとして確立されている。
本稿では,位相認識学習とベイズサンプリングの相互作用を促進する新しいベイズトポロジカルCNNを提案する。
ベンチマーク画像分類データセットのモデルを評価し、従来のCNN、ベイズニューラルネットワーク(BNN)、トポロジカルCNNよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-13T17:57:43Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Human activity recognition using deep learning approaches and single
frame cnn and convolutional lstm [0.0]
我々は、ビデオから人間の行動を認識するために、単一のフレーム畳み込みニューラルネットワーク(CNN)と畳み込み長短期記憶という、深層学習に基づく2つのアプローチを探索する。
2つのモデルは、ベンチマークアクション認識データセットであるUCF50と、実験のために作成された別のデータセットでトレーニングされ、評価された。
どちらのモデルも精度は良いが、単一のフレームCNNモデルはUCF50データセットで99.8%の精度で畳み込みLSTMモデルより優れている。
論文 参考訳(メタデータ) (2023-04-18T01:33:29Z) - Understanding and Improving Transfer Learning of Deep Models via Neural Collapse [37.483109067209504]
分類問題に対する神経崩壊(NC)と伝達学習の関係について検討する。
機能崩壊と下流のパフォーマンスには強い相関関係がある。
提案手法は, 微調整パラメータを90%以上削減しつつ, 優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-23T08:48:34Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - Combining Deep Transfer Learning with Signal-image Encoding for
Multi-Modal Mental Wellbeing Classification [2.513785998932353]
本稿では,複数のマルチモーダルデータセット上で感情状態認識を行う際の限界に対処する枠組みを提案する。
5-point Likertスケールで評価された実世界の幸福度を推定する際のモデル性能は,我々のフレームワークを用いて向上できることを示す。
論文 参考訳(メタデータ) (2020-11-20T13:37:23Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。