論文の概要: The First Principles of Deep Learning and Compression
- arxiv url: http://arxiv.org/abs/2204.01782v1
- Date: Mon, 4 Apr 2022 18:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:08:53.144042
- Title: The First Principles of Deep Learning and Compression
- Title(参考訳): 深層学習の第一原理と圧縮
- Authors: Max Ehrlich
- Abstract要約: ディープラーニング手法の急速な普及により、消費者や組み込みアプリケーションでの利用が急速に増加した。
コンシューマおよび組み込みアプリケーションの1つの結果は、効率的なストレージとデータの送信を設計するために必要な、損失のあるマルチメディア圧縮である。
マルチメディア圧縮のディープラーニングアプローチは、Learned Multimedia Compressionと呼ばれ、エンコーダとデコーダのためのディープネットワークを用いて画像やビデオの圧縮表現を計算する。
- 参考スコア(独自算出の注目度): 4.797216015572358
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The deep learning revolution incited by the 2012 Alexnet paper has been
transformative for the field of computer vision. Many problems which were
severely limited using classical solutions are now seeing unprecedented
success. The rapid proliferation of deep learning methods has led to a sharp
increase in their use in consumer and embedded applications. One consequence of
consumer and embedded applications is lossy multimedia compression which is
required to engineer the efficient storage and transmission of data in these
real-world scenarios. As such, there has been increased interest in a deep
learning solution for multimedia compression which would allow for higher
compression ratios and increased visual quality.
The deep learning approach to multimedia compression, so called Learned
Multimedia Compression, involves computing a compressed representation of an
image or video using a deep network for the encoder and the decoder. While
these techniques have enjoyed impressive academic success, their industry
adoption has been essentially non-existent. Classical compression techniques
like JPEG and MPEG are too entrenched in modern computing to be easily
replaced. This dissertation takes an orthogonal approach and leverages deep
learning to improve the compression fidelity of these classical algorithms.
This allows the incredible advances in deep learning to be used for multimedia
compression without threatening the ubiquity of the classical methods.
The key insight of this work is that methods which are motivated by first
principles, i.e., the underlying engineering decisions that were made when the
compression algorithms were developed, are more effective than general methods.
By encoding prior knowledge into the design of the algorithm, the flexibility,
performance, and/or accuracy are improved at the cost of generality...
- Abstract(参考訳): 2012年のAlexnet論文によって引き起こされたディープラーニング革命は、コンピュータビジョンの分野に変革をもたらした。
古典的な解を用いて非常に制限された多くの問題は、今や前例のない成功を収めている。
ディープラーニング手法の急速な普及により、消費者や組み込みアプリケーションでの利用が急速に増加した。
コンシューマと組み込みアプリケーションの1つの結果として、リアルタイムシナリオにおけるデータの効率的なストレージと送信のために必要となる、マルチメディア圧縮の損失がある。
そのため、マルチメディア圧縮のための深層学習ソリューションへの関心が高まり、高い圧縮率と高い視覚品質が得られるようになった。
マルチメディア圧縮へのディープラーニングアプローチは、学習マルチメディア圧縮と呼ばれ、エンコーダとデコーダのためのディープネットワークを使用して画像やビデオの圧縮表現を計算することを含む。
これらの技術は優れた学術的成功を享受してきたが、その産業採用は基本的には存在しなかった。
JPEGやMPEGのような古典的な圧縮技術は、現代のコンピューティングでは簡単に置き換えられるには不十分である。
この論文は直交的アプローチを採用し、ディープラーニングを利用してこれらの古典的アルゴリズムの圧縮精度を向上させる。
これにより、古典的手法の普遍性を脅かすことなく、マルチメディア圧縮にディープラーニングの驚くべき進歩を利用できる。
この研究の鍵となる洞察は、第一原理、すなわち圧縮アルゴリズムが開発されたときに下された工学的決定によって動機づけられた手法は、一般的な方法よりも効果的であるということである。
アルゴリズムの設計に事前の知識をエンコードすることで、汎用コストで柔軟性、性能、および/または精度が向上する。
関連論文リスト
- AlphaZip: Neural Network-Enhanced Lossless Text Compression [0.0]
本稿では,Large Language Model (LLM) を用いたロスレステキスト圧縮手法を提案する。
第一に、トランスフォーマーブロックのような高密度ニューラルネットワークアーキテクチャを使用した予測、第二に、予測ランクをAdaptive Huffman、LZ77、Gzipといった標準的な圧縮アルゴリズムで圧縮する。
論文 参考訳(メタデータ) (2024-09-23T14:21:06Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z) - DECORE: Deep Compression with Reinforcement Learning [7.662713970764377]
本稿では,ネットワーク圧縮プロセスを自動化する強化学習手法であるDECOREを提案する。
他のアーキテクチャ検索手法とは対照的に、DECOREはシンプルで高速にトレーニングでき、1GPU上でのトレーニングに数時間しか必要としない。
論文 参考訳(メタデータ) (2021-06-11T00:03:41Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Analyzing and Mitigating JPEG Compression Defects in Deep Learning [69.04777875711646]
本稿では,JPEG圧縮が共通タスクやデータセットに与える影響を統一的に検討する。
高圧縮の一般的なパフォーマンス指標には大きなペナルティがあることが示される。
論文 参考訳(メタデータ) (2020-11-17T20:32:57Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - Video Coding for Machines: A Paradigm of Collaborative Compression and
Intelligent Analytics [127.65410486227007]
フレーム全体を圧縮、再構成することを目的としたビデオ符号化と、最も重要な情報のみを保存し、送信する特徴圧縮は、スケールの2つの端に立つ。
最近のビデオ圧縮の急激なトレンド、例えばディープラーニングベースのコーディングツールやエンドツーエンドの画像/ビデオコーディング、MPEG-7のコンパクトな特徴記述子標準などの取り組みは、持続的かつ迅速な開発を促進する。
本稿では,新たな領域であるVCM(Video Coding for Machines)の探索を行う。
論文 参考訳(メタデータ) (2020-01-10T17:24:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。