論文の概要: CE-Dedup: Cost-Effective Convolutional Neural Nets Training based on
Image Deduplication
- arxiv url: http://arxiv.org/abs/2109.00899v1
- Date: Mon, 23 Aug 2021 19:54:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-05 10:07:40.303282
- Title: CE-Dedup: Cost-Effective Convolutional Neural Nets Training based on
Image Deduplication
- Title(参考訳): CE-Dedup:画像重複に基づくコスト効果畳み込みニューラルネットワークトレーニング
- Authors: Xuan Li, Liqiong Chang, Xue Liu
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、視覚ベースのタスクに人気がある。
データセットにほぼ重複した画像が存在すると仮定するのは妥当である。
本稿では,CNNトレーニング性能に対する近距離画像の影響を評価するためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.12697122099925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attributed to the ever-increasing large image datasets, Convolutional Neural
Networks (CNNs) have become popular for vision-based tasks. It is generally
admirable to have larger-sized datasets for higher network training accuracies.
However, the impact of dataset quality has not to be involved. It is reasonable
to assume the near-duplicate images exist in the datasets. For instance, the
Street View House Numbers (SVHN) dataset having cropped house plate digits from
0 to 9 are likely to have repetitive digits from the same/similar house plates.
Redundant images may take up a certain portion of the dataset without
consciousness. While contributing little to no accuracy improvement for the
CNNs training, these duplicated images unnecessarily pose extra resource and
computation consumption. To this end, this paper proposes a framework to assess
the impact of the near-duplicate images on CNN training performance, called
CE-Dedup. Specifically, CE-Dedup associates a hashing-based image deduplication
approach with downstream CNNs-based image classification tasks. CE-Dedup
balances the tradeoff between a large deduplication ratio and a stable accuracy
by adjusting the deduplication threshold. The effectiveness of CE-Dedup is
validated through extensive experiments on well-known CNN benchmarks. On one
hand, while maintaining the same validation accuracy, CE-Dedup can reduce the
dataset size by 23%. On the other hand, when allowing a small validation
accuracy drop (by 5%), CE-Dedup can trim the dataset size by 75%.
- Abstract(参考訳): 拡大を続ける大規模な画像データセットに貢献するConvolutional Neural Networks(CNN)は、ビジョンベースのタスクで人気を博している。
一般的に、ネットワークトレーニングの精度を高めるために、より大きなデータセットを持つことが好ましい。
しかし、データセットの品質の影響は関与しない。
重複に近い画像がデータセットに存在すると仮定するのは合理的である。
例えば、Street View House Numbers (SVHN)データセットは、0から9までのトリミングされたハウスプレート桁を持ち、同じ/類似のハウスプレートから繰り返し数字を持つ可能性が高い。
冗長な画像は、意識せずにデータセットの特定の部分を取り込みます。
cnnsトレーニングの精度向上にはほとんど貢献していないが、これらの重複画像は余分なリソースと計算消費をもたらす。
そこで本稿では,CE-Dedup と呼ばれる CNN トレーニング性能に対する近距離画像の影響を評価する枠組みを提案する。
具体的には、CE-Dedupはハッシュベースの画像重複と下流CNNに基づく画像分類タスクを関連付ける。
CE-Dedupは、デデューズ閾値を調整することにより、大きなデデューズ比と安定した精度とのトレードオフをバランスさせる。
CE-Dedupの有効性は、よく知られたCNNベンチマークの広範な実験を通じて検証される。
一方、CE-Dedupは同じ検証精度を維持しながら、データセットのサイズを23%削減できる。
一方、小さな検証精度(5%)の低下を許容すると、ce-dedupはデータセットのサイズを75%削減できる。
関連論文リスト
- When do Convolutional Neural Networks Stop Learning? [0.0]
畳み込みニューラルネットワーク(CNN)はコンピュータビジョンタスクにおいて優れた性能を示した。
現在の実践は、トレーニング損失が減少し、トレーニングと検証エラーの間のギャップが増加すると、トレーニングをやめることである。
この研究は、CNNの変種の全層にわたるデータ変動を分析し、その準最適学習能力を予測する仮説を導入している。
論文 参考訳(メタデータ) (2024-03-04T20:35:09Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - Reinforce Data, Multiply Impact: Improved Model Accuracy and Robustness
with Dataset Reinforcement [68.44100784364987]
本研究では、強化データセット上でトレーニングされたモデルアーキテクチャの精度が、ユーザにとって追加のトレーニングコストなしで向上するように、データセットを改善する戦略を提案する。
ImageNet+と呼ばれるImageNetトレーニングデータセットの強化バージョンと、強化されたデータセットCIFAR-100+、Flowers-102+、Food-101+を作成します。
ImageNet+でトレーニングされたモデルは、より正確で、堅牢で、校正され、下流タスクにうまく転送されます。
論文 参考訳(メタデータ) (2023-03-15T23:10:17Z) - Recurrence With Correlation Network for Medical Image Registration [66.63200823918429]
本稿では,医療画像登録ネットワークであるRecurrence with correlation Network (RWCNet)について述べる。
これらの特徴により、2つの画像登録データセットにおける医用画像登録精度が向上することが実証された。
論文 参考訳(メタデータ) (2023-02-05T02:41:46Z) - Feature transforms for image data augmentation [74.12025519234153]
画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。
本研究では,14種類の拡張アプローチを組み合わせて生成した画像を追加することで,データレベルでのアンサンブルを構築する。
事前トレーニングされたResNet50ネットワークは、各拡張メソッドから派生した画像を含むトレーニングセットに基づいて微調整される。
論文 参考訳(メタデータ) (2022-01-24T14:12:29Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Examining and Mitigating Kernel Saturation in Convolutional Neural
Networks using Negative Images [0.8594140167290097]
CNNにおける畳み込みカーネル飽和の影響を解析する。
トレーニングデータセットに負の画像を追加することで、飽和を緩和し、分類精度を高めるための単純なデータ増強技術を提案する。
以上の結果から,CNNは畳み込みカーネル飽和の影響を受けやすく,トレーニングデータセットに負のイメージを補うことで,分類精度が統計的に顕著に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2021-05-10T06:06:49Z) - Knowledge Distillation Methods for Efficient Unsupervised Adaptation
Across Multiple Domains [13.464493273131591]
CNNの非監視単一ターゲットDA(STDA)とマルチターゲットDA(MTDA)に対するプログレッシブKDアプローチを提案する。
提案手法は,Office31 および ImageClef-DA 画像分類データセット上の CNN の圧縮と STDA の最先端手法と比較する。
論文 参考訳(メタデータ) (2021-01-18T19:53:16Z) - Application of Facial Recognition using Convolutional Neural Networks
for Entry Access Control [0.0]
本論文は,画像中の人物を入力として捉え,その人物を著者の1人か否かを分類する,教師付き分類問題の解決に焦点をあてる。
提案手法は,(1)WoodNetと呼ばれるニューラルネットワークをスクラッチから構築し,トレーニングすること,(2)ImageNetデータベース上に事前トレーニングされたネットワークを利用することで,転送学習を活用すること,の2つである。
結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。
論文 参考訳(メタデータ) (2020-11-23T07:55:24Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。