論文の概要: CNNs for JPEGs: A Study in Computational Cost
- arxiv url: http://arxiv.org/abs/2309.11417v2
- Date: Fri, 22 Sep 2023 19:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 22:34:22.089057
- Title: CNNs for JPEGs: A Study in Computational Cost
- Title(参考訳): JPEGのためのCNN:計算コストに関する研究
- Authors: Samuel Felipe dos Santos, Nicu Sebe, and Jurandy Almeida
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
- 参考スコア(独自算出の注目度): 45.74830585715129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional neural networks (CNNs) have achieved astonishing advances over
the past decade, defining state-of-the-art in several computer vision tasks.
CNNs are capable of learning robust representations of the data directly from
the RGB pixels. However, most image data are usually available in compressed
format, from which the JPEG is the most widely used due to transmission and
storage purposes demanding a preliminary decoding process that have a high
computational load and memory usage. For this reason, deep learning methods
capable of learning directly from the compressed domain have been gaining
attention in recent years. Those methods usually extract a frequency domain
representation of the image, like DCT, by a partial decoding, and then make
adaptation to typical CNNs architectures to work with them. One limitation of
these current works is that, in order to accommodate the frequency domain data,
the modifications made to the original model increase significantly their
amount of parameters and computational complexity. On one hand, the methods
have faster preprocessing, since the cost of fully decoding the images is
avoided, but on the other hand, the cost of passing the images though the model
is increased, mitigating the possible upside of accelerating the method. In
this paper, we propose a further study of the computational cost of deep models
designed for the frequency domain, evaluating the cost of decoding and passing
the images through the network. We also propose handcrafted and data-driven
techniques for reducing the computational complexity and the number of
parameters for these models in order to keep them similar to their RGB
baselines, leading to efficient models with a better trade off between
computational cost and accuracy.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnns)は、過去10年間に驚くべき進歩を遂げ、いくつかのコンピュータビジョンタスクで最先端を定義する。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
しかし、ほとんどの画像データは圧縮フォーマットで利用可能であり、jpegは送信やストレージの目的で、高い計算負荷とメモリ使用量を持つプリミティブデコーディングプロセスを要求するため、最も広く使われている。
このため,近年,圧縮領域から直接学習できる深層学習手法が注目されている。
これらの手法は通常、部分的復号化によってDCTのような画像の周波数領域表現を抽出し、典型的なCNNアーキテクチャに適応して処理を行う。
現在の研究の1つの制限は、周波数領域のデータに対応するために、元のモデルに施された修正がパラメータの量と計算複雑性を著しく増加させることである。
一方, 画像の完全復号化コストは回避されるため, 高速な前処理が可能であり, 一方, モデルが向上しても, 画像の通過コストが増大し, 高速化の可能性が軽減される。
本稿では,周波数領域用に設計した深層モデルの計算コストのさらなる検討を行い,画像の復号化とネットワークへの転送のコストを評価する。
また,RGBベースラインと類似性を維持するため,計算コストと精度のトレードオフを良くした効率的なモデルを実現するために,計算複雑性とパラメータ数を削減できる手作業型およびデータ駆動型手法を提案する。
関連論文リスト
- Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion [35.88039888482076]
本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。
DASは非常に高速で柔軟性があり、GPUの1日以内で非常に大きな検索スペースを検索できる。
DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。
論文 参考訳(メタデータ) (2024-03-22T13:27:57Z) - Rapid-INR: Storage Efficient CPU-free DNN Training Using Implicit Neural Representation [7.539498729072623]
Implicit Neural Representation (INR) は、複雑な形状や物体を、その形状や表面構造を明確に定義せずに表現するための革新的なアプローチである。
従来の研究では、画像圧縮のINRとしてニューラルネットワークを使用することの有効性が実証されており、JPEGのような従来の手法に匹敵する性能を示している。
本稿では、画像のエンコーディングと圧縮にINRを利用する新しいアプローチであるRapid-INRを紹介し、コンピュータビジョンタスクにおけるニューラルネットワークトレーニングを高速化する。
論文 参考訳(メタデータ) (2023-06-29T05:49:07Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Improved FRQI on superconducting processors and its restrictions in the
NISQ era [62.997667081978825]
量子画像のフレキシブル表現の実現可能性について検討する。
また、現在の雑音の中間スケール量子時代の限界を実験的に検証する。
FRQIに必要な回路を単純化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-29T10:42:43Z) - Less is More: Accelerating Faster Neural Networks Straight from JPEG [1.9214041945441434]
JPEG圧縮データ処理のための畳み込みニューラルネットワークの高速化方法を示す。
学習戦略を活用し、DCT入力をフル活用し、計算の複雑さを低減します。
その結果、データ駆動方式で全てのdct入力を組み合わせる方法を学ぶことは、手で捨てるよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-04-01T01:21:24Z) - CNNs for JPEGs: A Study in Computational Cost [49.97673761305336]
畳み込みニューラルネットワーク(CNN)は過去10年間で驚くべき進歩を遂げてきた。
CNNはRGBピクセルから直接データの堅牢な表現を学習することができる。
近年,圧縮領域から直接学習できる深層学習手法が注目されている。
論文 参考訳(メタデータ) (2020-12-26T15:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。