論文の概要: Exploring Self-Supervised Learning with U-Net Masked Autoencoders and EfficientNet B7 for Improved Classification
- arxiv url: http://arxiv.org/abs/2410.19899v1
- Date: Fri, 25 Oct 2024 17:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:22:52.364280
- Title: Exploring Self-Supervised Learning with U-Net Masked Autoencoders and EfficientNet B7 for Improved Classification
- Title(参考訳): U-Net Masked AutoencodersとEfficientNet B7による自己教師付き学習の探索
- Authors: Vamshi Krishna Kancharla, Pavan Kumar Kaveti,
- Abstract要約: 自己教師型U-Netマスク付きオートエンコーダとノイズ除去モデル
我々はAdamを0.0001の学習率で採用し、検証セットの最高精度は0.94に達した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We present a self-supervised U-Net-based masked autoencoder and noise removal model designed to reconstruct original images. Once adequately trained, this model extracts high-level features, which are then combined with features from the EfficientNet B7 model. These integrated features are subsequently fed into dense layers for classification. Among the approaches of masked input and Gaussian noise removal, we selected the best U-Net reconstruction model. Additionally, we explored various configurations, including EfficientNet with attention, attention fusion of the autoencoder, and classification utilizing U-Net encoder features. The best performance was achieved with EfficientNet B7 combined with U-Net encoder features. We employed the Adam optimizer with a learning rate of 0.0001, achieving a top accuracy of 0.94 on the validation set.
- Abstract(参考訳): オリジナル画像の再構成を目的とした自己教師付きU-Netマスク付きオートエンコーダとノイズ除去モデルを提案する。
一度適切なトレーニングを受けた後、このモデルは高レベルの機能を抽出し、EfficientNet B7モデルの機能と組み合わせる。
これらの統合された特徴はその後、分類のために密度の高い層に供給される。
マスク入力とガウス雑音除去のアプローチの中で,最適なU-Net再構成モデルを選択した。
さらに、注意を伴う効率的なNet、オートエンコーダの注意融合、U-Netエンコーダの機能を利用した分類など、さまざまな構成について検討した。
最高のパフォーマンスは、EfficientNet B7とU-Netエンコーダの機能を組み合わせることで達成された。
我々はAdamオプティマイザを0.0001の学習率で使用し、検証セット上では0.94の最高精度を実現した。
関連論文リスト
- EffiSegNet: Gastrointestinal Polyp Segmentation through a Pre-Trained EfficientNet-based Network with a Simplified Decoder [0.8892527836401773]
EffiSegNetは、トレーニング済みの畳み込みニューラルネットワーク(CNN)をバックボーンとして、トランスファーラーニングを活用する新しいセグメンテーションフレームワークである。
Kvasir-SEGデータセットを用いて消化管ポリープセグメンテーションタスクの評価を行い,その成果を得た。
論文 参考訳(メタデータ) (2024-07-23T08:54:55Z) - Efficient Joint Optimization of Layer-Adaptive Weight Pruning in Deep
Neural Networks [48.089501687522954]
ディープニューラルネットワーク(DNN)のための新しい層適応型重み決定手法を提案する。
我々のアプローチは、レイヤ適応型プルーニングスキームを設計するためのすべてのレイヤの集団的影響を考慮に入れている。
我々の実験は、ImageNetとCIFAR-10データセット上の既存の手法よりも、我々のアプローチの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T03:22:47Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Denoising Masked AutoEncoders are Certifiable Robust Vision Learners [37.04863068273281]
DMAE(Denoising Masked AutoEncoders)と呼ばれる自己教師型手法を提案する。
DMAEは各ピクセル値にガウスノイズを加え、複数のパッチをランダムにマスキングすることで、各イメージを劣化させる。
その後、Transformerベースのエンコーダデコーダモデルをトレーニングして、オリジナルのイメージを破損したイメージから再構築する。
論文 参考訳(メタデータ) (2022-10-10T12:37:59Z) - An efficient encoder-decoder architecture with top-down attention for
speech separation [25.092542427133704]
バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャは、TDANetと呼ばれる脳のトップダウンの注意を模倣することで実現している。
3つのベンチマークデータセットにおいて、TDANetは従来型のSOTA(State-of-the-art)メソッドと競合する分離性能を一貫して達成した。
論文 参考訳(メタデータ) (2022-09-30T03:09:53Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Post-training deep neural network pruning via layer-wise calibration [70.65691136625514]
本論文では,自動合成フラクタル画像に基づくコンピュータビジョンモデルに対するデータフリーな拡張を提案する。
実データを使用する場合は、トレーニング後の設定で65%の間隔で8ビットの精度でImageNet上のResNet50モデルを取得できます。
論文 参考訳(メタデータ) (2021-04-30T14:20:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。