論文の概要: Transformer-based Image Compression with Variable Image Quality
Objectives
- arxiv url: http://arxiv.org/abs/2309.12717v1
- Date: Fri, 22 Sep 2023 08:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 15:09:56.067585
- Title: Transformer-based Image Compression with Variable Image Quality
Objectives
- Title(参考訳): 可変画像品質オブジェクトを用いたトランスフォーマーによる画像圧縮
- Authors: Chia-Hao Kao, Yi-Hsin Chen, Cheng Chien, Wei-Chen Chiu, Wen-Hsiao Peng
- Abstract要約: トランスフォーマーベースの画像圧縮システムは、ユーザの好みに応じて、可変画像品質目標を実現する。
本手法は,2つの画像品質目標間のトレードオフを,単一の共有モデルを用いて選択する柔軟性を提供する。
- 参考スコア(独自算出の注目度): 23.56234172940883
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a Transformer-based image compression system that allows
for a variable image quality objective according to the user's preference.
Optimizing a learned codec for different quality objectives leads to
reconstructed images with varying visual characteristics. Our method provides
the user with the flexibility to choose a trade-off between two image quality
objectives using a single, shared model. Motivated by the success of
prompt-tuning techniques, we introduce prompt tokens to condition our
Transformer-based autoencoder. These prompt tokens are generated adaptively
based on the user's preference and input image through learning a prompt
generation network. Extensive experiments on commonly used quality metrics
demonstrate the effectiveness of our method in adapting the encoding and/or
decoding processes to a variable quality objective. While offering the
additional flexibility, our proposed method performs comparably to the
single-objective methods in terms of rate-distortion performance.
- Abstract(参考訳): 本稿では,利用者の好みに応じて可変な画質目標を実現するトランスフォーマチック画像圧縮システムを提案する。
学習したコーデックを異なる品質目標に最適化すると、様々な視覚特性を持つ再構成画像が得られる。
本手法は,2つの画像品質目標間のトレードオフを,単一の共有モデルを用いて選択する柔軟性を提供する。
プロンプトチューニング技術の成功により、トランスフォーマーベースのオートエンコーダを条件にプロンプトトークンを導入する。
これらのプロンプトトークンは、プロンプト生成ネットワークを学習することにより、ユーザの好みと入力画像に基づいて適応的に生成される。
一般的な品質指標に関する大規模な実験は、符号化および/または復号処理を可変品質目標に適応させる際の方法の有効性を示す。
さらなる柔軟性を提供する一方で,提案手法は単目的法と相容れない速度・歪み性能を示す。
関連論文リスト
- Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Controllable Image Enhancement [66.18525728881711]
いくつかのパラメータを制御して、複数のスタイルで高品質な画像を生成できる半自動画像強調アルゴリズムを提案する。
エンコーダ・デコーダフレームワークは、リタッチスキルを潜在コードにエンコードし、イメージ信号処理機能のパラメータにデコードする。
論文 参考訳(メタデータ) (2022-06-16T23:54:53Z) - MSTRIQ: No Reference Image Quality Assessment Based on Swin Transformer
with Multi-Stage Fusion [8.338999282303755]
本稿では,Swin Transformerに基づく新しいアルゴリズムを提案する。
ローカル機能とグローバル機能の両方から情報を集約して、品質をより正確に予測する。
NTIRE 2022 Perceptual Image Quality Assessment Challengeのノーレファレンストラックで2位。
論文 参考訳(メタデータ) (2022-05-20T11:34:35Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Towards End-to-End Image Compression and Analysis with Transformers [99.50111380056043]
本稿では,クラウドベースの画像分類アプリケーションを対象として,トランスフォーマーを用いたエンドツーエンドの画像圧縮解析モデルを提案する。
我々は、圧縮された特徴から画像分類を行うためにビジョントランスフォーマー(ViT)モデルを再設計し、トランスフォーマーからの長期情報を用いて画像圧縮を容易にすることを目指している。
画像圧縮と分類作業の両方において,提案モデルの有効性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2021-12-17T03:28:14Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Analysis of diversity-accuracy tradeoff in image captioning [15.735086091894365]
低温と組み合わせた単純復号法は,多種多様な精度のキャプションセットを生成するための競争的かつ高速な手法であることを示す。
本稿では,字幕集合の精度と多様性を1つの値で評価するための新しい指標AllSPICEを提案する。
論文 参考訳(メタデータ) (2020-02-27T00:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。