論文の概要: Efficient Rotation Invariance in Deep Neural Networks through Artificial
Mental Rotation
- arxiv url: http://arxiv.org/abs/2311.08525v1
- Date: Tue, 14 Nov 2023 20:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 18:15:45.576411
- Title: Efficient Rotation Invariance in Deep Neural Networks through Artificial
Mental Rotation
- Title(参考訳): 人工心身回転による深部ニューラルネットワークの効率的な回転不変性
- Authors: Lukas Tuggener, Thilo Stadelmann, J\"urgen Schmidhuber
- Abstract要約: 本稿では,平面内回転を扱うための新しい深層学習パラダイムである人工心身回転(AMR)を提案する。
我々の単純なAMR実装は、すべての一般的なCNNおよびViTアーキテクチャで動作する。
また、トレーニングされたAMRモジュールを下流タスクに簡単に転送し、回転したCoCo上でのトレーニング済みセマンティックセグメンテーションモデルの性能を向上させる。
- 参考スコア(独自算出の注目度): 0.8998734428412523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans and animals recognize objects irrespective of the beholder's point of
view, which may drastically change their appearances. Artificial pattern
recognizers also strive to achieve this, e.g., through translational invariance
in convolutional neural networks (CNNs). However, both CNNs and vision
transformers (ViTs) perform very poorly on rotated inputs. Here we present
artificial mental rotation (AMR), a novel deep learning paradigm for dealing
with in-plane rotations inspired by the neuro-psychological concept of mental
rotation. Our simple AMR implementation works with all common CNN and ViT
architectures. We test it on ImageNet, Stanford Cars, and Oxford Pet. With a
top-1 error (averaged across datasets and architectures) of $0.743$, AMR
outperforms the current state of the art (rotational data augmentation, average
top-1 error of $0.626$) by $19\%$. We also easily transfer a trained AMR module
to a downstream task to improve the performance of a pre-trained semantic
segmentation model on rotated CoCo from $32.7$ to $55.2$ IoU.
- Abstract(参考訳): 人間や動物は、所有者の視点に関係なく物体を認識し、その外観が劇的に変化する可能性がある。
人工パターン認識器も、例えば畳み込みニューラルネットワーク(CNN)の翻訳的不変性を通じてこれを達成しようとしている。
しかし、cnnとヴィジュアルトランスフォーマー(vits)は、回転した入力に対して非常に性能が悪い。
本稿では,心の回転という神経心理学的概念に触発された平面内回転を扱うための新しい深層学習パラダイムであるartificial mental rotation (amr)を提案する。
我々の単純なAMR実装は、すべての一般的なCNNおよびViTアーキテクチャで動作する。
ImageNet、Stanford Cars、Oxford Petでテストしています。
amrは、top-1エラー(データセットとアーキテクチャの平均値)が0.743$で、現在のアート(回転データ拡張、平均top-1エラーが0.626$)を19\%$で上回っている。
また、トレーニング済みのAMRモジュールをダウンストリームタスクに簡単に転送し、回転したCoCo上でのトレーニング済みセマンティックセマンティックセマンティクスモデルの性能を32.7ドルから55.2ドルIoUに改善する。
関連論文リスト
- Achieving Rotation Invariance in Convolution Operations: Shifting from Data-Driven to Mechanism-Assured [18.910817148765176]
本稿では、任意の回転に自然に不変な新しい畳み込み演算を設計する。
従来の回転不変畳み込みニューラルネットワーク(RI-CNN)と比較した。
RIConvsはトレーニングデータに制限がある場合,これらのCNNバックボーンの精度を著しく向上することを示した。
論文 参考訳(メタデータ) (2024-04-17T12:21:57Z) - Revisiting Data Augmentation for Rotational Invariance in Convolutional
Neural Networks [0.29127054707887967]
画像分類のためのCNNにおける回転不変性について検討する。
実験により、データ拡張だけで訓練されたネットワークは、通常の非回転の場合と同様に、回転した画像の分類がほぼ可能であることが示された。
論文 参考訳(メタデータ) (2023-10-12T15:53:24Z) - DiffIR: Efficient Diffusion Model for Image Restoration [108.82579440308267]
拡散モデル(DM)は、画像合成過程をデノナイジングネットワークのシーケンシャルな応用にモデル化することで、SOTA性能を達成した。
画像全体や特徴マップを推定する大規模なモデルで大規模なイテレーションを実行する従来のDMは、画像復元には非効率である。
本稿では、小型IR先行抽出ネットワーク(CPEN)、ダイナミックIR変換器(DIRformer)、デノナイズネットワーク(Denoising Network)からなるDiffIRを提案する。
論文 参考訳(メタデータ) (2023-03-16T16:47:14Z) - RIC-CNN: Rotation-Invariant Coordinate Convolutional Neural Network [56.42518353373004]
回転不変座標変換(RIC-C)と呼ばれる新しい畳み込み演算を提案する。
CNNの標準畳み込み層を対応するRCC-Cに置き換えることで、RCC-CNNを導出することができる。
RIC-CNNはMNISTの回転試験データセット上で最先端の分類を実現することが観察できる。
論文 参考訳(メタデータ) (2022-11-21T19:27:02Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Lost Vibration Test Data Recovery Using Convolutional Neural Network: A
Case Study [0.0]
本稿では,アラモサキャニオン橋のCNNアルゴリズムを実構造として提案する。
3つの異なるCNNモデルは、1つと2つの故障したセンサーを予測するものとされた。
畳み込み層を追加することによりモデルの精度が向上した。
論文 参考訳(メタデータ) (2022-04-11T23:24:03Z) - RRL:Regional Rotation Layer in Convolutional Neural Networks [2.131909135487625]
畳み込みニューラルネットワーク(CNN)は、画像分類とオブジェクト検出において非常によく機能する。
本稿では,既存のネットワークに挿入可能なモジュールを提案し,その回転不変性をCNNの特徴抽出層に直接組み込む。
このモジュールには学習可能なパラメータがなく、モデルの複雑さを増すことはない。
論文 参考訳(メタデータ) (2022-02-25T06:07:53Z) - Deep Neural Networks are Surprisingly Reversible: A Baseline for
Zero-Shot Inversion [90.65667807498086]
本稿では、内部表現のみを与えられたトレーニングモデルへの入力を復元するゼロショット直接モデル逆変換フレームワークを提案する。
ImageNetの最新の分類モデルでは、20層以上の表現から元の224x224px画像を近似的に復元できることを実証的に示す。
論文 参考訳(メタデータ) (2021-07-13T18:01:43Z) - Neuroevolution of a Recurrent Neural Network for Spatial and Working
Memory in a Simulated Robotic Environment [57.91534223695695]
我々は,ラットで観察される行動と神経活動を再現する進化的アルゴリズムを用いて,生物学的に有意なリカレントニューラルネットワーク(RNN)でウェイトを進化させた。
提案手法は, 進化したRNNの動的活動が, 興味深く複雑な認知行動をどのように捉えているかを示す。
論文 参考訳(メタデータ) (2021-02-25T02:13:52Z) - Towards Understanding Hierarchical Learning: Benefits of Neural
Representations [160.33479656108926]
この研究で、中間的神経表現がニューラルネットワークにさらなる柔軟性をもたらすことを実証する。
提案手法は, 生の入力と比較して, サンプルの複雑度を向上できることを示す。
この結果から, 深度が深層学習においてなぜ重要かという新たな視点が得られた。
論文 参考訳(メタデータ) (2020-06-24T02:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。