論文の概要: Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification
- arxiv url: http://arxiv.org/abs/2007.15161v3
- Date: Thu, 4 Mar 2021 04:21:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:06:40.457102
- Title: Rethinking Recurrent Neural Networks and Other Improvements for Image
Classification
- Title(参考訳): リカレントニューラルネットワークの再検討と画像分類の改善
- Authors: Nguyen Huu Phong, Bernardete Ribeiro
- Abstract要約: 画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また、複数のモデルを用いて専門家による予測を生成するエンド・ツー・エンドのマルチモデルアンサンブルも開発している。
私たちのモデルは、Surreyデータセットに新しいレコードを設定します。
- 参考スコア(独自算出の注目度): 1.5990720051907859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the long history of machine learning, which dates back several decades,
recurrent neural networks (RNNs) have been used mainly for sequential data and
time series and generally with 1D information. Even in some rare studies on 2D
images, these networks are used merely to learn and generate data sequentially
rather than for image recognition tasks. In this study, we propose integrating
an RNN as an additional layer when designing image recognition models. We also
develop end-to-end multimodel ensembles that produce expert predictions using
several models. In addition, we extend the training strategy so that our model
performs comparably to leading models and can even match the state-of-the-art
models on several challenging datasets (e.g., SVHN (0.99), Cifar-100 (0.9027)
and Cifar-10 (0.9852)). Moreover, our model sets a new record on the Surrey
dataset (0.949). The source code of the methods provided in this article is
available at https://github.com/leonlha/e2e-3m and http://nguyenhuuphong.me.
- Abstract(参考訳): 数十年前にさかのぼる機械学習の長い歴史の中で、リカレントニューラルネットワーク(RNN)は主にシーケンシャルなデータや時系列、一般的に1D情報に使われてきた。
2次元画像の稀な研究においても、これらのネットワークは画像認識タスクではなく、データのシーケンシャルな学習と生成にのみ使用される。
本研究では,画像認識モデルの設計において,RNNを付加層として統合することを提案する。
また,複数のモデルを用いてエキスパート予測を行うエンド・ツー・エンドのマルチモデルアンサンブルを開発した。
さらに、トレーニング戦略を拡張して、主要なモデルと互換性があり、いくつかの挑戦的なデータセット(SVHN (0.99)、Cifar-100 (0.9027)、Cifar-10 (0.9852) など)で最先端のモデルにマッチさせることができる。
さらに,本モデルでは,サリーデータセット (0.949) に新しいレコードを設定する。
この記事では、メソッドのソースコードをhttps://github.com/leonlha/e2e-3mとhttp://nguyenhuuphong.meで公開します。
関連論文リスト
- Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文 参考訳(メタデータ) (2024-09-10T06:07:20Z) - Premonition: Using Generative Models to Preempt Future Data Changes in
Continual Learning [63.850451635362425]
継続的な学習には、データ分散の継続的な変化に対応するためのモデルが必要である。
本稿では,大規模言語モデルと画像生成モデルの組み合わせが有用であることを示す。
トレーニング済みネットワークのバックボーンは、下流の連続学習問題に有用な表現を学習できることがわかった。
論文 参考訳(メタデータ) (2024-03-12T06:29:54Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Few-shot Learning using Data Augmentation and Time-Frequency
Transformation for Time Series Classification [6.830148185797109]
データ拡張による新しい数ショット学習フレームワークを提案する。
シークエンス・スペクトログラム・ニューラルネット(SSNN)も開発している。
本手法は,時系列分類における数ショット問題への対処法の適用性を実証する。
論文 参考訳(メタデータ) (2023-11-06T15:32:50Z) - Learning to Jump: Thinning and Thickening Latent Counts for Generative
Modeling [69.60713300418467]
ジャンプの学習は、様々な種類のデータの生成モデリングのための一般的なレシピである。
ジャンプの学習が、デノゼの学習と相容れないパフォーマンスを期待される場合と、より良いパフォーマンスを期待される場合を実証する。
論文 参考訳(メタデータ) (2023-05-28T05:38:28Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - KNN-Diffusion: Image Generation via Large-Scale Retrieval [40.6656651653888]
適応する学習は、いくつかの新しい機能を可能にします。
微調整の訓練されたモデルと新しいサンプルは、単にテーブルに追加するだけで実現できる。
我々の拡散モデルでは、共同のテキスト・イメージ・マルチモーダル・メトリックを利用することで、画像のみを訓練する。
論文 参考訳(メタデータ) (2022-04-06T14:13:35Z) - Supervised Training of Siamese Spiking Neural Networks with Earth's
Mover Distance [4.047840018793636]
本研究は,高可逆性シアムニューラルネットモデルをイベントデータ領域に適応させる。
我々はスパイク・トレインとスパイク・ニューラル・ネットワーク(SNN)の間の地球のモーバー距離を最適化するための教師付きトレーニング・フレームワークを導入する。
論文 参考訳(メタデータ) (2022-02-20T00:27:57Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Application of Facial Recognition using Convolutional Neural Networks
for Entry Access Control [0.0]
本論文は,画像中の人物を入力として捉え,その人物を著者の1人か否かを分類する,教師付き分類問題の解決に焦点をあてる。
提案手法は,(1)WoodNetと呼ばれるニューラルネットワークをスクラッチから構築し,トレーニングすること,(2)ImageNetデータベース上に事前トレーニングされたネットワークを利用することで,転送学習を活用すること,の2つである。
結果は、データセット内の個人を高い精度で分類し、保持されたテストデータに対して99%以上の精度で達成する2つのモデルである。
論文 参考訳(メタデータ) (2020-11-23T07:55:24Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。