論文の概要: Exploration of Learned Lifting-Based Transform Structures for Fully
Scalable and Accessible Wavelet-Like Image Compression
- arxiv url: http://arxiv.org/abs/2402.18761v1
- Date: Thu, 29 Feb 2024 00:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:30:47.133143
- Title: Exploration of Learned Lifting-Based Transform Structures for Fully
Scalable and Accessible Wavelet-Like Image Compression
- Title(参考訳): 完全スケーラブルかつアクセシブルウェーブレット様画像圧縮のための学習自由度に基づく変換構造の探索
- Authors: Xinyue Li, Aous Naman and David Taubman
- Abstract要約: 本稿では、ニューラルネットワークをリフティングベースのウェーブレット様変換に組み込む方法について検討する。
そこで本研究では,学習昇降ステップ数,チャネル数,レイヤ数,各学習昇降演算子におけるカーネルサポートの影響について検討する。
本論文で提案する学習ウェーブレット様変換は,コンパクトな空間サポートを持つJPEG 2000と比較して25%以上のビットレートの削減を実現している。
- 参考スコア(独自算出の注目度): 14.473452842448737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper provides a comprehensive study on features and performance of
different ways to incorporate neural networks into lifting-based wavelet-like
transforms, within the context of fully scalable and accessible image
compression. Specifically, we explore different arrangements of lifting steps,
as well as various network architectures for learned lifting operators.
Moreover, we examine the impact of the number of learned lifting steps, the
number of channels, the number of layers and the support of kernels in each
learned lifting operator. To facilitate the study, we investigate two generic
training methodologies that are simultaneously appropriate to a wide variety of
lifting structures considered. Experimental results ultimately suggest that
retaining fixed lifting steps from the base wavelet transform is highly
beneficial. Moreover, we demonstrate that employing more learned lifting steps
and more layers in each learned lifting operator do not contribute strongly to
the compression performance. However, benefits can be obtained by utilizing
more channels in each learned lifting operator. Ultimately, the learned
wavelet-like transform proposed in this paper achieves over 25% bit-rate
savings compared to JPEG 2000 with compact spatial support.
- Abstract(参考訳): 本稿では,完全にスケーラブルでアクセス可能な画像圧縮のコンテキストにおいて,ニューラルネットワークをリフトベースウェーブレット様変換に組み込むためのさまざまな方法の特徴と性能に関する包括的研究を行う。
具体的には,様々な昇降ステップの配置や,学習された昇降演算子のための様々なネットワークアーキテクチャについて検討する。
さらに,学習した昇降ステップ数,チャネル数,レイヤ数,各学習昇降演算子におけるカーネルサポートの影響について検討した。
本研究は,多種多様な揚力構造に同時に適合する2つの総合的な訓練手法について検討する。
実験結果から, ベースウェーブレット変換からの昇降ステップの維持は極めて有益であることが示唆された。
さらに,各学習昇降演算子における学習昇降段数と層数の増加が圧縮性能に大きく寄与しないことを実証する。
しかし、学習した各リフト演算子でより多くのチャネルを利用することで、利点を得ることができる。
本論文で提案する学習ウェーブレット様変換はJPEG 2000と比較して25%以上のビットレートの削減を実現している。
関連論文リスト
- WTDUN: Wavelet Tree-Structured Sampling and Deep Unfolding Network for Image Compressed Sensing [51.94493817128006]
マルチスケールウェーブレットサブバンド上で直接動作するWTDUNという新しいウェーブレットドメインの深層展開フレームワークを提案する。
本手法は,ウェーブレット係数の固有間隔とマルチスケール構造を利用して,木構造によるサンプリングと再構成を実現する。
論文 参考訳(メタデータ) (2024-11-25T12:31:03Z) - How Lightweight Can A Vision Transformer Be [0.0]
我々は、Mixture-of-Experts (MoE) を用いて、拡張された視覚変換器ではなく、合理化を行う戦略を探求する。
MoE層の各専門家はSwiGLUフィードフォワードネットワークであり、VとW2は層間で共有される。
アーキテクチャは0.67Mのパラメータでも競合することがわかった。
論文 参考訳(メタデータ) (2024-07-25T05:23:20Z) - Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling [58.50618448027103]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
本稿では,CLIPを訓練した視覚バックボーンの違いについて検討する。
方法によって、最高の単一のバックボーンよりも39.1%の精度が著しく向上する。
論文 参考訳(メタデータ) (2024-05-27T12:59:35Z) - Weight Copy and Low-Rank Adaptation for Few-Shot Distillation of Vision Transformers [22.1372572833618]
視覚変換器のための新規な数ショット特徴蒸留手法を提案する。
まず、既存の視覚変換器の断続的な層から、より浅いアーキテクチャ(学生)へと重みをコピーする。
次に、Low-Rank Adaptation (LoRA) の強化版を用いて、数ショットのシナリオで学生に知識を抽出する。
論文 参考訳(メタデータ) (2024-04-14T18:57:38Z) - Unveiling Backbone Effects in CLIP: Exploring Representational Synergies
and Variances [49.631908848868505]
コントラスト言語-画像事前学習(CLIP)は画像表現学習において顕著な手法である。
各種ニューラルアーキテクチャにおけるCLIP性能の違いについて検討する。
我々は、複数のバックボーンからの予測を組み合わせるためのシンプルで効果的なアプローチを提案し、最大6.34%のパフォーマンス向上につながった。
論文 参考訳(メタデータ) (2023-12-22T03:01:41Z) - Demystify Transformers & Convolutions in Modern Image Deep Networks [82.32018252867277]
本稿では,一般のコンボリューションとアテンション演算子の真の利益を,詳細な研究により同定することを目的とする。
注意や畳み込みのようなこれらの特徴変換モジュールの主な違いは、それらの空間的特徴集約アプローチにある。
各種課題の実験と帰納的バイアスの解析により,ネットワークレベルとブロックレベルの高度な設計により,性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-10T18:59:43Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Stochastic Layers in Vision Transformers [85.38733795180497]
視覚変換器の完全な層を導入し,性能を著しく低下させることなく実現した。
この追加により、視覚機能の堅牢性が向上し、プライバシーが強化される。
私たちの機能は3つの異なるアプリケーション、すなわち、敵の堅牢性、ネットワークキャリブレーション、機能プライバシに使用しています。
論文 参考訳(メタデータ) (2021-12-30T16:07:59Z) - Topo2vec: Topography Embedding Using the Fractal Effect [3.957174470017176]
リモートセンシング画像におけるフラクタル効果を利用した自己教師型学習手法の拡張を提案する。
提案手法の有効性を標高データに示すとともに,その効果を推論に用いた。
我々の知る限りでは、地形画像の汎用表現を構築しようとする最初の試みである。
論文 参考訳(メタデータ) (2021-08-19T18:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。