論文の概要: Recurrent Neural Networks for Still Images
- arxiv url: http://arxiv.org/abs/2409.06235v1
- Date: Tue, 10 Sep 2024 06:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 18:50:07.739704
- Title: Recurrent Neural Networks for Still Images
- Title(参考訳): 静止画像のためのリカレントニューラルネットワーク
- Authors: Dmitri, Lvov, Yair Smadar, Ran Bezen,
- Abstract要約: 我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we explore the application of Recurrent Neural Network (RNN) for still images. Typically, Convolutional Neural Networks (CNNs) are the prevalent method applied for this type of data, and more recently, transformers have gained popularity, although they often require large models. Unlike these methods, RNNs are generally associated with processing sequences over time rather than single images. We argue that RNNs can effectively handle still images by interpreting the pixels as a sequence. This approach could be particularly advantageous for compact models designed for embedded systems, where resources are limited. Additionally, we introduce a novel RNN design tailored for two-dimensional inputs, such as images, and a custom version of BiDirectional RNN (BiRNN) that is more memory-efficient than traditional implementations. In our research, we have tested these layers in Convolutional Recurrent Neural Networks (CRNNs), predominantly composed of Conv2D layers, with RNN layers at or close to the end. Experiments on the COCO and CIFAR100 datasets show better results, particularly for small networks.
- Abstract(参考訳): 本稿では、静止画像に対するリカレントニューラルネットワーク(RNN)の適用について検討する。
通常、畳み込みニューラルネットワーク(CNN)はこの種のデータに適用される一般的な手法であり、最近では大きなモデルを必要とするが、トランスフォーマーの人気が高まっている。
これらの方法とは異なり、RNNは一般的に単一の画像ではなく、時間とともに処理シーケンスと関連付けられている。
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
このアプローチは、リソースが限られている組み込みシステム用に設計されたコンパクトモデルに特に有利である。
さらに、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを導入する。
本研究では,これらのレイヤを畳み込み型リカレントニューラルネットワーク(CRNN)で検証した。
COCOとCIFAR100データセットの実験は、特に小さなネットワークにおいて、より良い結果を示している。
関連論文リスト
- Investigating Sparsity in Recurrent Neural Networks [0.0]
本論文は, プルーニングとスパースリカレントニューラルネットワークがRNNの性能に与える影響を考察することに焦点を当てる。
まず,RNNの刈り込み,RNNの性能への影響,および刈り込み後の精度回復に必要な訓練エポック数について述べる。
次に、スパースリカレントニューラルネットワークの作成と訓練を継続し、その基礎となる任意の構造の性能とグラフ特性の関係を同定する。
論文 参考訳(メタデータ) (2024-07-30T07:24:58Z) - CNN2GNN: How to Bridge CNN with GNN [59.42117676779735]
蒸留によりCNNとGNNを統一する新しいCNN2GNNフレームワークを提案する。
Mini-ImageNetにおける蒸留ブースターの2層GNNの性能は、ResNet152のような数十層を含むCNNよりもはるかに高い。
論文 参考訳(メタデータ) (2024-04-23T08:19:08Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Sub-bit Neural Networks: Learning to Compress and Accelerate Binary
Neural Networks [72.81092567651395]
Sub-bit Neural Networks (SNN) は、BNNの圧縮と高速化に適した新しいタイプのバイナリ量子化設計である。
SNNは、微細な畳み込みカーネル空間におけるバイナリ量子化を利用するカーネル対応最適化フレームワークで訓練されている。
ビジュアル認識ベンチマークの実験とFPGA上でのハードウェア展開は、SNNの大きな可能性を検証する。
論文 参考訳(メタデータ) (2021-10-18T11:30:29Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z) - Pruning and Slicing Neural Networks using Formal Verification [0.2538209532048866]
ディープニューラルネットワーク(DNN)は、様々なコンピュータシステムにおいてますます重要な役割を担っている。
これらのネットワークを作成するために、エンジニアは通常、望ましいトポロジを指定し、自動トレーニングアルゴリズムを使用してネットワークの重みを選択する。
本稿では,近年のDNN検証の進歩を活用して,この問題に対処することを提案する。
論文 参考訳(メタデータ) (2021-05-28T07:53:50Z) - An Alternative Practice of Tropical Convolution to Traditional
Convolutional Neural Networks [0.5837881923712392]
トロピカル畳み込みニューラルネットワーク (TCNNs) と呼ばれる新しいタイプのCNNを提案する。
TCNNは、従来の畳み込み層における乗算と加算をそれぞれ加算とmin/max演算に置き換える熱帯畳み込みの上に構築されている。
我々は,MNIST と CIFAR10 の画像データセットにおいて,通常の畳み込み層よりも表現力が高いことを示す。
論文 参考訳(メタデータ) (2021-03-03T00:13:30Z) - Scalable Neural Tangent Kernel of Recurrent Architectures [8.487185704099923]
無限幅のディープニューラルネットワーク(DNN)から派生したカーネルは、機械学習タスクの範囲で高いパフォーマンスを提供する。
我々は、リカレントニューラルネットワーク(RNN)に関連するカーネルのファミリーを、平均プーリングを持つ双方向RNNとRNNであるより複雑なアーキテクチャに拡張する。
論文 参考訳(メタデータ) (2020-12-09T04:36:34Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - Binarized Graph Neural Network [65.20589262811677]
我々は二項化グラフニューラルネットワークを開発し、二項化ネットワークパラメータを用いてノードのバイナリ表現を学習する。
提案手法は既存のGNNベースの埋め込み手法にシームレスに統合できる。
実験により、提案された二項化グラフニューラルネットワーク、すなわちBGNは、時間と空間の両方の観点から、桁違いに効率的であることが示されている。
論文 参考訳(メタデータ) (2020-04-19T09:43:14Z) - Visual Commonsense R-CNN [102.5061122013483]
本稿では,新しい教師なし特徴表現学習手法であるVisual Commonsense Region-based Convolutional Neural Network (VC R-CNN)を提案する。
VC R-CNNは、キャプションやVQAのような高レベルのタスクのための改善された視覚領域エンコーダとして機能する。
我々は、画像キャプション、VQA、VCRの3つの一般的なタスクのモデルにおいて、VC R-CNNの機能を広く適用し、それら全体で一貫したパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2020-02-27T15:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。