論文の概要: OneCAD: One Classifier for All image Datasets using multimodal learning
- arxiv url: http://arxiv.org/abs/2305.07167v1
- Date: Thu, 11 May 2023 22:40:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-15 14:26:23.423841
- Title: OneCAD: One Classifier for All image Datasets using multimodal learning
- Title(参考訳): 1CAD:マルチモーダル学習を用いた全画像データセットの1分類
- Authors: Shakti N. Wadekar, Eugenio Culurciello
- Abstract要約: 視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)は、分類タスクに広く使われている。
これらのモデルアーキテクチャは、トレーニングされたデータセットのクラス数に依存する。
多数のクラスに依存しないモデルアーキテクチャを作成することは可能ですか?
- 参考スコア(独自算出の注目度): 3.4900381065671917
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Transformers (ViTs) and Convolutional neural networks (CNNs) are
widely used Deep Neural Networks (DNNs) for classification task. These model
architectures are dependent on the number of classes in the dataset it was
trained on. Any change in number of classes leads to change (partial or full)
in the model's architecture. This work addresses the question: Is it possible
to create a number-of-class-agnostic model architecture?. This allows model's
architecture to be independent of the dataset it is trained on. This work
highlights the issues with the current architectures (ViTs and CNNs). Also,
proposes a training and inference framework OneCAD (One Classifier for All
image Datasets) to achieve close-to number-of-class-agnostic transformer model.
To best of our knowledge this is the first work to use Mask-Image-Modeling
(MIM) with multimodal learning for classification task to create a DNN model
architecture agnostic to the number of classes. Preliminary results are shown
on natural and medical image datasets. Datasets: MNIST, CIFAR10, CIFAR100 and
COVIDx. Code will soon be publicly available on github.
- Abstract(参考訳): vision-transformers(vits)とconvolutional neural networks(cnns)は、分類タスクに広く使われているディープニューラルネットワーク(dnn)である。
これらのモデルアーキテクチャは、トレーニングしたデータセット内のクラス数に依存する。
クラスの数を変更すると、モデルのアーキテクチャが変更される(部分的あるいは全体的)。
多数のクラスに依存しないモデルアーキテクチャを作成することは可能ですか?
.
これにより、モデルのアーキテクチャは、トレーニングされたデータセットから独立することができる。
この作業は、現在のアーキテクチャ(ViTとCNN)の問題を強調します。
また,全画像データセットのOneCAD(One Classifier for All Image Datasets)を学習・推論フレームワークとして提案する。
我々の知る限り、クラス数に依存しないDNNモデルアーキテクチャを作成するために、分類タスクにマルチモーダル学習を備えたマスク・イメージ・モデリング(MIM)を使った最初の研究である。
予備結果は、自然画像および医学画像データセットに示される。
データセット:MNIST、CIFAR10、CIFAR100、COVIDx。
コードは間もなくgithubで公開される。
関連論文リスト
- Few-Class Arena: A Benchmark for Efficient Selection of Vision Models and Dataset Difficulty Measurement [4.197377031038214]
Few-Class Arena (FCA) は、少数のクラスで効率的な画像分類モデルをテストするための統一ベンチマークである。
FCAは、Few-Class Regimeで効率的な機械学習のための新しいツールを提供する。新しい効率的なクラス類似性の提案から、軽量なモデルアーキテクチャ設計、新しいスケーリング法則まで幅広い目標がある。
論文 参考訳(メタデータ) (2024-11-02T01:31:47Z) - Modelling Long Range Dependencies in $N$D: From Task-Specific to a
General Purpose CNN [47.205463459723056]
我々は、任意の解像度、次元、長さのデータを処理することができる単一のCNNであるContinuous Convolutional Neural Network (CCNN)を提案する。
主要なコンポーネントは、各レイヤにおける長距離依存関係をモデル化する継続的畳み込みカーネルである。
私たちのCCNNは、検討されたすべてのタスクにおいて、現在の最先端よりも優れています。
論文 参考訳(メタデータ) (2023-01-25T12:12:47Z) - Classification of EEG Motor Imagery Using Deep Learning for
Brain-Computer Interface Systems [79.58173794910631]
トレーニングされたT1クラス畳み込みニューラルネットワーク(CNN)モデルを使用して、運動画像の識別を成功させる能力を調べる。
理論的には、モデルが正確にトレーニングされた場合、クラスを特定し、それに従ってラベル付けすることが可能になる。
CNNモデルは復元され、より小さなサンプルデータを使用して同じ種類の運動画像データを特定するために使用される。
論文 参考訳(メタデータ) (2022-05-31T17:09:46Z) - BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations [89.42397034542189]
我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
論文 参考訳(メタデータ) (2022-01-12T20:28:34Z) - Deep ensembles in bioimage segmentation [74.01883650587321]
本研究では,畳み込みニューラルネットワーク(CNN)のアンサンブルを提案する。
アンサンブル法では、多くの異なるモデルが訓練され、分類に使用され、アンサンブルは単一分類器の出力を集約する。
提案するアンサンブルは,DeepLabV3+とHarDNet環境を用いて,異なるバックボーンネットワークを組み合わせることで実現されている。
論文 参考訳(メタデータ) (2021-12-24T05:54:21Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Decomposing Convolutional Neural Networks into Reusable and Replaceable
Modules [15.729284470106826]
本稿では,画像分類問題に使用されるCNNモデルを,各出力クラスのモジュールに分解する。
これらのモジュールはさらに再利用したり、新しいモデルを構築するために置き換えることができる。
我々は、CIFAR-10、CIFAR-100、ImageNetの3種類のResNetモデルを用いて、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2021-10-11T20:41:50Z) - Learning Versatile Neural Architectures by Propagating Network Codes [74.2450894473073]
アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」を提案する。
ncpはネットワークコードから学習するが、オリジナルデータではないため、データセット間で効率的にアーキテクチャを更新することができる。
論文 参考訳(メタデータ) (2021-03-24T15:20:38Z) - Is it Enough to Optimize CNN Architectures on ImageNet? [0.0]
我々は、ImageNetと他の8つの画像分類データセットで500のCNNアーキテクチャをトレーニングする。
アーキテクチャとパフォーマンスの関係はデータセットによって大きく異なる。
2つのデータセット固有のパフォーマンス指標を識別した:層間の累積幅とネットワーク全体の深さである。
論文 参考訳(メタデータ) (2021-03-16T14:42:01Z) - Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification [1.5990720051907859]
画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。
私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
論文 参考訳(メタデータ) (2020-07-30T00:40:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。