論文の概要: Training a Custom CNN on Five Heterogeneous Image Datasets
- arxiv url: http://arxiv.org/abs/2601.04727v1
- Date: Thu, 08 Jan 2026 08:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.116682
- Title: Training a Custom CNN on Five Heterogeneous Image Datasets
- Title(参考訳): 5つの異種画像データセットを用いたカスタムCNNの訓練
- Authors: Anika Tabassum, Tasnuva Mahazabin Tuba, Nafisa Naznin,
- Abstract要約: 本研究では,農業・都市領域にまたがる5つのデータセットを対象としたCNNアーキテクチャの有効性について検討した。
これらのデータセットには、照明の差、解像度、環境の複雑さ、クラス不均衡など、さまざまな課題が導入されている。
我々は、ResNet-18やVGG-16など、確立したディープアーキテクチャとともに、軽量でタスク固有のカスタムCNNを評価し、スクラッチとトランスファーラーニングの両方を用いて訓練した。
- 参考スコア(独自算出の注目度): 1.4583375893645076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning has transformed visual data analysis, with Convolutional Neural Networks (CNNs) becoming highly effective in learning meaningful feature representations directly from images. Unlike traditional manual feature engineering methods, CNNs automatically extract hierarchical visual patterns, enabling strong performance across diverse real-world contexts. This study investigates the effectiveness of CNN-based architectures across five heterogeneous datasets spanning agricultural and urban domains: mango variety classification, paddy variety identification, road surface condition assessment, auto-rickshaw detection, and footpath encroachment monitoring. These datasets introduce varying challenges, including differences in illumination, resolution, environmental complexity, and class imbalance, necessitating adaptable and robust learning models. We evaluate a lightweight, task-specific custom CNN alongside established deep architectures, including ResNet-18 and VGG-16, trained both from scratch and using transfer learning. Through systematic preprocessing, augmentation, and controlled experimentation, we analyze how architectural complexity, model depth, and pre-training influence convergence, generalization, and performance across datasets of differing scale and difficulty. The key contributions of this work are: (1) the development of an efficient custom CNN that achieves competitive performance across multiple application domains, and (2) a comprehensive comparative analysis highlighting when transfer learning and deep architectures provide substantial advantages, particularly in data-constrained environments. These findings offer practical insights for deploying deep learning models in resource-limited yet high-impact real-world visual classification tasks.
- Abstract(参考訳): ディープラーニングは視覚データ分析を変革し、畳み込みニューラルネットワーク(CNN)は画像から直接意味のある特徴表現を学習する上で非常に効果的になった。
従来の手動機能エンジニアリング手法とは異なり、CNNは階層的な視覚パターンを自動的に抽出し、様々な現実世界のコンテキストで強力なパフォーマンスを実現する。
本研究では, マンゴ品種分類, 水田品種識別, 路面条件評価, 自動車軸検出, 足場侵入監視という, 農業・都市領域にまたがる5つの異種データセットを対象としたCNNアーキテクチャの有効性について検討した。
これらのデータセットには、照明、解像度、環境の複雑さ、クラス不均衡、適応性と堅牢な学習モデルの必要性など、さまざまな課題が導入されている。
我々は、ResNet-18やVGG-16など、確立したディープアーキテクチャとともに、軽量でタスク固有のカスタムCNNを評価し、スクラッチとトランスファーラーニングの両方を用いて訓練した。
組織的な事前処理、拡張、制御された実験を通じて、異なるスケールと難易度を持つデータセット間でのアーキテクチャの複雑さ、モデル深度、事前学習の影響の収束、一般化、パフォーマンスを解析する。
この研究の主な貢献は、(1)複数のアプリケーションドメイン間での競争性能を実現する効率的なカスタムCNNの開発、(2)転送学習と深層アーキテクチャが特にデータ制約のある環境で大きな利点をもたらすことを強調した総合的な比較分析である。
これらの知見は,資源に制限のある実世界の視覚的分類タスクにおいて,ディープラーニングモデルをデプロイするための実践的な洞察を与える。
関連論文リスト
- Evolving CNN Architectures: From Custom Designs to Deep Residual Models for Diverse Image Classification and Detection Tasks [0.9023847175654603]
本稿では,CNNモデルに対するカスタム畳み込みニューラルネットワーク(CNN)アーキテクチャの比較検討を行った。
データセットはバイナリ分類、きめ細かいマルチクラス認識、オブジェクト検出シナリオにまたがる。
本稿では,ネットワーク深度,残差接続,特徴抽出戦略,影響分類,ローカライゼーション性能などのアーキテクチャ要因について分析する。
論文 参考訳(メタデータ) (2026-01-03T07:45:08Z) - A Comparative Study of Vision Transformers and CNNs for Few-Shot Rigid Transformation and Fundamental Matrix Estimation [3.5684665108045377]
視覚変換器(ViT)と大規模畳み込みニューラルネット(CNN)は、事前訓練された特徴表現を通じてコンピュータビジョンを再構築した。
本研究は,1)画像間の2次元剛性変換を推定し,2)ステレオ画像対の基本行列を予測する。
経験的比較分析は、スクラッチからのトレーニングと同様、ViTsは大規模なダウンストリームデータシナリオの洗練時にCNNを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-06T13:18:27Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Enhanced Convolutional Neural Networks for Improved Image Classification [0.40964539027092917]
CIFAR-10は、小規模のマルチクラスデータセットの分類モデルの性能を評価するために広く使用されているベンチマークである。
本稿では,より深い畳み込みブロック,バッチ正規化,ドロップアウト正規化を統合したCNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-02-02T04:32:25Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。