論文の概要: Deep Learning Towards Edge Computing: Neural Networks Straight from
Compressed Data
- arxiv url: http://arxiv.org/abs/2012.14426v1
- Date: Sat, 26 Dec 2020 15:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:09:00.512228
- Title: Deep Learning Towards Edge Computing: Neural Networks Straight from
Compressed Data
- Title(参考訳): エッジコンピューティングに向けたディープラーニング - 圧縮データからニューラルネットワークへ
- Authors: Samuel Felipe dos Santos and Jurandy Almeida
- Abstract要約: 畳み込みニューラルネットワーク(cnns)など、多くのインテリジェントなアプリケーションはディープラーニングモデルに依存している
本稿では,画像や映像の保存や伝送に使用される圧縮表現において,視覚コンテンツに関連する関連情報から直接学習できる深層ニューラルネットワークを提案する。
これにより、データストリームの完全復号化において高い計算負荷を節約し、処理時間を大幅に短縮することが可能になる。
- 参考スコア(独自算出の注目度): 1.9214041945441434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the popularization and grow in computational power of mobile phones,
as well as advances in artificial intelligence, many intelligent applications
have been developed, meaningfully enriching people's life. For this reason,
there is a growing interest in the area of edge intelligence, that aims to push
the computation of data to the edges of the network, in order to make those
applications more efficient and secure. Many intelligent applications rely on
deep learning models, like convolutional neural networks (CNNs). Over the past
decade, they have achieved state-of-the-art performance in many computer vision
tasks. To increase the performance of these methods, the trend has been to use
increasingly deeper architectures and with more parameters, leading to a high
computational cost. Indeed, this is one of the main problems faced by deep
architectures, limiting their applicability in domains with limited
computational resources, like edge devices. To alleviate the computational
complexity, we propose a deep neural network capable of learning straight from
the relevant information pertaining to visual content readily available in the
compressed representation used for image and video storage and transmission.
The novelty of our approach is that it was designed to operate directly on
frequency domain data, learning with DCT coefficients rather than RGB pixels.
This enables to save high computational load in full decoding the data stream
and therefore greatly speed up the processing time, which has become a big
bottleneck of deep learning. We evaluated our network on two challenging tasks:
(1) image classification on the ImageNet dataset and (2) video classification
on the UCF-101 and HMDB-51 datasets. Our results demonstrate comparable
effectiveness to the state-of-the-art methods in terms of accuracy, with the
advantage of being more computationally efficient.
- Abstract(参考訳): 携帯電話の普及と計算能力の増大、人工知能の進歩により、多くのインテリジェントなアプリケーションが開発され、有意義に人々の生活を豊かにしている。
そのため、エッジインテリジェンス(エッジインテリジェンス)の分野への関心が高まっており、これらのアプリケーションをより効率的かつセキュアにするために、データの計算をネットワークのエッジにプッシュすることを目指している。
多くのインテリジェントアプリケーションは、畳み込みニューラルネットワーク(CNN)のようなディープラーニングモデルに依存している。
過去10年間で、多くのコンピュータビジョンタスクで最先端のパフォーマンスを達成した。
これらの手法の性能を高めるために、より深いアーキテクチャとより多くのパラメータを使用する傾向があり、計算コストが高くなる。
実際、これはディープアーキテクチャが直面する主な問題の一つであり、エッジデバイスのような限られた計算リソースを持つドメインでの適用性を制限する。
計算複雑性を軽減するために,画像とビデオの記憶と伝送に使用される圧縮表現で容易に利用できる視覚コンテンツに関連する情報から直接学習できるディープニューラルネットワークを提案する。
提案手法の新規性は,RGB 画素ではなく DCT 係数で学習することで,周波数領域データを直接操作するように設計されている。
これにより、データストリームの完全復号化において高い計算負荷を節約し、処理時間を大幅に短縮することが可能になる。
1)ImageNetデータセット上の画像分類と,(2)UCF-101データセットとHMDB-51データセット上の映像分類の2つの課題について,ネットワークの評価を行った。
その結果, 計算効率が向上し, 精度の面では最先端手法に匹敵する効果を示した。
関連論文リスト
- DCT-CryptoNets: Scaling Private Inference in the Frequency Domain [8.084341432899954]
ホモモルフィック暗号化(FHE)と機械学習は、機密データの個人推論に前例のない機会を提供する。
FHEは、暗号化されたデータに直接計算を可能にし、データやモデルの機密性を含む、マシンラーニングパイプライン全体を保護する。
ディープニューラルネットワークのための既存のFHEベースの実装は、計算コスト、レイテンシ、スケーラビリティの課題に直面している。
本稿では、これらの問題に対処するために周波数領域学習を利用する新しいアプローチであるDCT-CryptoNetsを紹介する。
論文 参考訳(メタデータ) (2024-08-27T17:48:29Z) - CNNs for JPEGs: A Study in Computational Cost [45.74830585715129]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2023-09-20T15:49:38Z) - Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文 参考訳(メタデータ) (2023-06-29T05:49:07Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Improved FRQI on superconducting processors and its restrictions in the
NISQ era [62.997667081978825]
量子画像のフレキシブル表現の実現可能性について検討する。
また、現在の雑音の中間スケール量子時代の限界を実験的に検証する。
FRQIに必要な回路を単純化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-29T10:42:43Z) - Less is More: Accelerating Faster Neural Networks Straight from JPEG [1.9214041945441434]
JPEG圧縮データ処理のための畳み込みニューラルネットワークの高速化方法を示す。
学習戦略を活用し、DCT入力をフル活用し、計算の複雑さを低減します。
その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-04-01T01:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。