論文の概要: EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder
- arxiv url: http://arxiv.org/abs/2404.13770v1
- Date: Sun, 21 Apr 2024 20:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 15:45:49.729867
- Title: EncodeNet: A Framework for Boosting DNN Accuracy with Entropy-driven Generalized Converting Autoencoder
- Title(参考訳): EncodeNet: エントロピー駆動の汎用変換オートエンコーダによるDNN精度向上フレームワーク
- Authors: Hasanul Mahmud, Kevin Desai, Palden Lama, Sushil K. Prasad,
- Abstract要約: 我々は,画像からクラスを分類し易い画像に変換する新しい手法を開発した。
本稿では,Converting Autoencoderの一般化されたアルゴリズム設計とクラス内クラスタリングを用いて,代表画像の識別を行う。
実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。
- 参考スコア(独自算出の注目度): 3.2595221511180306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classification is a fundamental task in computer vision, and the quest to enhance DNN accuracy without inflating model size or latency remains a pressing concern. We make a couple of advances in this regard, leading to a novel EncodeNet design and training framework. The first advancement involves Converting Autoencoders, a novel approach that transforms images into an easy-to-classify image of its class. Our prior work that applied the Converting Autoencoder and a simple classifier in tandem achieved moderate accuracy over simple datasets, such as MNIST and FMNIST. However, on more complex datasets like CIFAR-10, the Converting Autoencoder has a large reconstruction loss, making it unsuitable for enhancing DNN accuracy. To address these limitations, we generalize the design of Converting Autoencoders by leveraging a larger class of DNNs, those with architectures comprising feature extraction layers followed by classification layers. We incorporate a generalized algorithmic design of the Converting Autoencoder and intraclass clustering to identify representative images, leading to optimized image feature learning. Next, we demonstrate the effectiveness of our EncodeNet design and training framework, improving the accuracy of well-trained baseline DNNs while maintaining the overall model size. EncodeNet's building blocks comprise the trained encoder from our generalized Converting Autoencoders transferring knowledge to a lightweight classifier network - also extracted from the baseline DNN. Our experimental results demonstrate that EncodeNet improves the accuracy of VGG16 from 92.64% to 94.05% on CIFAR-10 and RestNet20 from 74.56% to 76.04% on CIFAR-100. It outperforms state-of-the-art techniques that rely on knowledge distillation and attention mechanisms, delivering higher accuracy for models of comparable size.
- Abstract(参考訳): 画像分類はコンピュータビジョンの基本的な課題であり、モデルサイズやレイテンシを膨らませることなくDNNの精度を高めるという試みは、依然として大きな関心事である。
私たちはこの点に関していくつかの進歩を行い、新しいEncodeNet設計およびトレーニングフレームワークにつながります。
最初の進歩は、イメージをそのクラスの簡単に分類できるイメージに変換する新しいアプローチである、自動エンコーダの変換である。
変換オートエンコーダとタンデムの単純な分類器を応用した以前の研究は、MNISTやFMNISTのような単純なデータセットよりも適度に精度が向上した。
しかし、CIFAR-10のようなより複雑なデータセットでは、Converting Autoencoderは大規模な再構築損失があり、DNNの精度を高めるには適していない。
これらの制約に対処するため、より大規模なDNNと特徴抽出層と分類層からなるアーキテクチャを併用して、変換オートエンコーダの設計を一般化する。
本稿では,Converting Autoencoderとクラス内クラスタリングの一般化されたアルゴリズム設計を取り入れて,代表画像の識別を行い,最適化された画像特徴学習を実現する。
次に、EncodeNetの設計およびトレーニングフレームワークの有効性を実証し、モデル全体のサイズを維持しながら、よく訓練されたベースラインDNNの精度を向上させる。
EncodeNetのビルディングブロックは、知識を軽量な分類器ネットワークに転送する一般化されたConverting Autoencoderからトレーニングされたエンコーダで構成されており、ベースラインDNNからも抽出されている。
実験により,EncodeNetはVGG16の精度を92.64%から94.05%に改善し,RestNet20は74.56%から76.04%に改善した。
これは知識蒸留と注意機構に依存した最先端技術より優れており、同等の大きさのモデルに対して高い精度を提供する。
関連論文リスト
- Enhancing Learned Image Compression via Cross Window-based Attention [4.673285689826945]
特徴符号化モジュールと統合したCNNベースのソリューションを提案する。
クロススケールウィンドウベースアテンションは、変換器のアテンション機構にインスパイアされ、受容場を効果的に拡大する。
提案手法はKodakおよびCLICデータセット上で評価し,提案手法が有効であり,最先端手法と同等であることを示す。
論文 参考訳(メタデータ) (2024-10-28T15:44:35Z) - On the Design and Performance of Machine Learning Based Error Correcting Decoders [3.8289109929360245]
まず, 単一ラベル型ニューラルネットワーク (SLNN) とマルチラベル型ニューラルネットワーク (MLNN) のデコーダについて検討した。
次に、エラー訂正符号変換器(ECCT)とクロスアテンションメッセージパッシング変換器(CrossMPT)という、2つのトランスフォーマーベースのデコーダに注目します。
論文 参考訳(メタデータ) (2024-10-21T11:23:23Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Dynamic Semantic Compression for CNN Inference in Multi-access Edge
Computing: A Graph Reinforcement Learning-based Autoencoder [82.8833476520429]
部分オフロードにおける効果的な意味抽出と圧縮のための新しい意味圧縮手法であるオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティックデコーダでは、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。
論文 参考訳(メタデータ) (2024-01-19T15:19:47Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Masked Autoencoders Are Scalable Vision Learners [60.97703494764904]
Masked Autoencoders (MAE) は、コンピュータビジョンのためのスケーラブルな自己教師型学習システムである。
我々は入力画像のランダムなパッチを隠蔽し、欠落したピクセルを再構成する。
これら2つの設計を結合することで,大規模モデルを効率的かつ効率的にトレーニングすることが可能になります。
論文 参考訳(メタデータ) (2021-11-11T18:46:40Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。