論文の概要: Fruit Deformity Classification through Single-Input and Multi-Input Architectures based on CNN Models using Real and Synthetic Images
- arxiv url: http://arxiv.org/abs/2412.12966v1
- Date: Tue, 17 Dec 2024 14:51:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:28.055228
- Title: Fruit Deformity Classification through Single-Input and Multi-Input Architectures based on CNN Models using Real and Synthetic Images
- Title(参考訳): 実画像と合成画像を用いたCNNモデルに基づく単一入力および多入力アーキテクチャによる果実変形度分類
- Authors: Tommy D. Beltran, Raul J. Villao, Luis E. Chuquimarca, Boris X. Vintimilla, Sergio A. Velastin,
- Abstract要約: 本研究は,リンゴ,マンゴー,イチゴなどの果実の外部品質検査における変形度を検出することに焦点を当てた。
データセットは、果物のシルエットを提供するSegment Anything Model(SAM)を使用してセグメント化される。
その結果,MobileNetV2モデルを用いたマルチ入力アーキテクチャは果実の変形を識別するのに最も有効であることが判明した。
- 参考スコア(独自算出の注目度): 2.1534273328102937
- License:
- Abstract: The present study focuses on detecting the degree of deformity in fruits such as apples, mangoes, and strawberries during the process of inspecting their external quality, employing Single-Input and Multi-Input architectures based on convolutional neural network (CNN) models using sets of real and synthetic images. The datasets are segmented using the Segment Anything Model (SAM), which provides the silhouette of the fruits. Regarding the single-input architecture, the evaluation of the CNN models is performed only with real images, but a methodology is proposed to improve these results using a pre-trained model with synthetic images. In the Multi-Input architecture, branches with RGB images and fruit silhouettes are implemented as inputs for evaluating CNN models such as VGG16, MobileNetV2, and CIDIS. However, the results revealed that the Multi-Input architecture with the MobileNetV2 model was the most effective in identifying deformities in the fruits, achieving accuracies of 90\%, 94\%, and 92\% for apples, mangoes, and strawberries, respectively. In conclusion, the Multi-Input architecture with the MobileNetV2 model is the most accurate for classifying levels of deformity in fruits.
- Abstract(参考訳): 本研究では, リンゴ, マンゴー, イチゴなどの果実の外部品質を検査する過程で, コンボリューショナルニューラルネットワーク(CNN)モデルに基づく単一入力アーキテクチャと多入力アーキテクチャを用いて, 実画像と合成画像の集合を用いて, 果実の変形度を検出することに焦点を当てた。
データセットは、果物のシルエットを提供するSegment Anything Model (SAM)を使用してセグメント化される。
シングルインプットアーキテクチャでは,実画像のみを用いてCNNモデルの評価を行うが,合成画像を用いた事前学習モデルを用いて,これらの結果を改善する手法が提案されている。
マルチ入力アーキテクチャでは、VGG16、MobileNetV2、CIDISなどのCNNモデルを評価するための入力として、RGBイメージとフルーツシルエットを持つブランチを実装している。
しかし,MobileNetV2モデルを用いたマルチ入力アーキテクチャは果実の変形を識別し,リンゴ,マンゴー,イチゴの9倍,94倍,92倍の精度を実現した。
結論として、MobileNetV2モデルを用いたマルチ入力アーキテクチャは、果実の変形のレベルを分類するのに最も正確である。
関連論文リスト
- Classifying Healthy and Defective Fruits with a Multi-Input Architecture and CNN Models [0.0]
主な目的は、CNNモデルの精度を高めることである。
その結果,Multi-Input アーキテクチャにシルエット画像を含めることで,優れた性能のモデルが得られることがわかった。
論文 参考訳(メタデータ) (2024-10-14T21:37:12Z) - Convolutional Neural Network Ensemble Learning for Hyperspectral
Imaging-based Blackberry Fruit Ripeness Detection in Uncontrolled Farm
Environment [4.292727554656705]
本稿では,ブラックベリー果実の熟しやすさの微妙な特徴を検出するために,新しいマルチインプット畳み込みニューラルネットワーク(CNN)アンサンブル分類器を提案する。
提案したモデルは、未確認セットで95.1%の精度、フィールド条件で90.2%の精度を達成した。
論文 参考訳(メタデータ) (2024-01-09T12:00:17Z) - An Improved CNN-based Neural Network Model for Fruit Sugar Level Detection [24.07349410158827]
我々は,果実の可視/近赤外(V/NIR)スペクトルに基づいて,ニューラルネットワーク(ANN)を用いた果実糖度推定のための回帰モデルを構築した。
果実糖濃度を検出対象として,Gan Nan Navel と Tian Shan Pear の2種類の果実データを収集し,その比較実験を行った。
論文 参考訳(メタデータ) (2023-11-18T17:07:25Z) - Facilitated machine learning for image-based fruit quality assessment in
developing countries [68.8204255655161]
自動画像分類は食品科学における教師あり機械学習の一般的な課題である。
事前学習型視覚変換器(ViT)に基づく代替手法を提案する。
標準的なデバイス上で限られたリソースで簡単に実装できる。
論文 参考訳(メタデータ) (2022-07-10T19:52:20Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Image Quality Assessment using Contrastive Learning [50.265638572116984]
我々は、補助的な問題を解決するために、対照的な対の目的を用いて深層畳み込みニューラルネットワーク(CNN)を訓練する。
本研究では,最新のNR画像品質モデルと比較して,ContriQUEが競争性能を向上することを示す。
以上の結果から,大きなラベル付き主観的画像品質データセットを必要とせずに,知覚的関連性を持つ強力な品質表現が得られることが示唆された。
論文 参考訳(メタデータ) (2021-10-25T21:01:00Z) - A Battle of Network Structures: An Empirical Study of CNN, Transformer,
and MLP [121.35904748477421]
畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための支配的なディープニューラルネットワーク(DNN)アーキテクチャである。
トランスフォーマーとマルチ層パーセプトロン(MLP)ベースのモデル(Vision TransformerやVision-Mixer)が新しいトレンドを導い始めた。
本稿では,これらのDNN構造について実証的研究を行い,それぞれの長所と短所を理解しようとする。
論文 参考訳(メタデータ) (2021-08-30T06:09:02Z) - Making CNNs Interpretable by Building Dynamic Sequential Decision
Forests with Top-down Hierarchy Learning [62.82046926149371]
本稿では,CNN(Convlutional Neural Networks)を解釈可能なモデル転送方式を提案する。
我々は、CNNの上に微分可能な意思決定林を構築することで、これを実現する。
DDSDF(Dep Dynamic Sequential Decision Forest)と命名する。
論文 参考訳(メタデータ) (2021-06-05T07:41:18Z) - Measuring the Ripeness of Fruit with Hyperspectral Imaging and Deep
Learning [14.853897011640022]
本稿では,ハイパースペクトルカメラとディープニューラルネットワークアーキテクチャを用いて果実の熟度を計測するシステムを提案する。
このアーキテクチャは、成熟状態の予測において、競合するベースラインモデルに勝った。
論文 参考訳(メタデータ) (2021-04-20T07:43:19Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Incorporating Image Gradients as Secondary Input Associated with Input
Image to Improve the Performance of the CNN Model [0.0]
既存のCNNアーキテクチャでは、与えられた入力の1つの形式のみがネットワークに供給される。
与えられた入力を複数の形式で同時にネットワークに渡す新しいアーキテクチャが提案されている。
論文 参考訳(メタデータ) (2020-06-05T14:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。