論文の概要: Transformer-based Variable-rate Image Compression with
Region-of-interest Control
- arxiv url: http://arxiv.org/abs/2305.10807v3
- Date: Tue, 1 Aug 2023 10:12:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 17:38:29.226385
- Title: Transformer-based Variable-rate Image Compression with
Region-of-interest Control
- Title(参考訳): 関心領域制御による変圧器による可変レート画像圧縮
- Authors: Chia-Hao Kao, Ying-Chieh Weng, Yi-Hsin Chen, Wei-Chen Chiu, Wen-Hsiao
Peng
- Abstract要約: 本稿では,変換器を用いた学習画像圧縮システムを提案する。
関心の領域機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。
- 参考スコア(独自算出の注目度): 24.794581811606445
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper proposes a transformer-based learned image compression system. It
is capable of achieving variable-rate compression with a single model while
supporting the region-of-interest (ROI) functionality. Inspired by prompt
tuning, we introduce prompt generation networks to condition the
transformer-based autoencoder of compression. Our prompt generation networks
generate content-adaptive tokens according to the input image, an ROI mask, and
a rate parameter. The separation of the ROI mask and the rate parameter allows
an intuitive way to achieve variable-rate and ROI coding simultaneously.
Extensive experiments validate the effectiveness of our proposed method and
confirm its superiority over the other competing methods.
- Abstract(参考訳): 本稿では,トランスベース学習画像圧縮システムを提案する。
関心の領域(ROI)機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。
即時チューニングにインスパイアされ、圧縮のトランスフォーマーベースのオートエンコーダを条件に、プロンプト生成ネットワークを導入する。
プロンプト生成ネットワークは、入力画像、roiマスク、レートパラメータに応じてコンテンツ適応トークンを生成する。
ROIマスクとレートパラメータの分離により、可変レートとROIのコーディングを同時に行う直感的な方法が可能になる。
提案手法の有効性を検証し,他の競合手法よりも優れていることを確認する。
関連論文リスト
- Bi-Level Spatial and Channel-aware Transformer for Learned Image Compression [0.0]
本稿では,特徴マップ内の周波数成分を考慮したトランスフォーマーに基づく画像圧縮手法を提案する。
本手法は,空間ベース分岐が高周波数と低周波数を独立に扱うHSCATB(Hybrid Space-Channel Attention Transformer Block)を統合した。
また、トランスフォーマーブロック内にMLGFFN(Mixed Local-Global Feed Forward Network)を導入し、多様な情報とリッチな情報の抽出を強化する。
論文 参考訳(メタデータ) (2024-08-07T15:35:25Z) - Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。
Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。
我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-17T03:52:37Z) - A Lightweight Sparse Focus Transformer for Remote Sensing Image Change Captioning [11.93705794906543]
本稿では、リモートセンシング画像変更キャプション(RSICC)タスクのためのスパースフォーカス変換器(SFT)を提案する。
提案するSFTネットワークは,スパースアテンション機構を組み込むことで,パラメータ数と計算複雑性を低減できる。
論文 参考訳(メタデータ) (2024-05-10T16:56:53Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Patch Is Not All You Need [57.290256181083016]
本稿では,画像の変換を適応的に変換する新しいパターン変換器を提案する。
我々は畳み込みニューラルネットワークを用いて入力画像から様々なパターンを抽出する。
我々は,CIFAR-10とCIFAR-100で最先端のパフォーマンスを達成し,ImageNet上での競合的な結果を得た。
論文 参考訳(メタデータ) (2023-08-21T13:54:00Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。