論文の概要: A Novel Framework for Image-to-image Translation and Image Compression
- arxiv url: http://arxiv.org/abs/2111.13105v1
- Date: Thu, 25 Nov 2021 14:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:51:44.016674
- Title: A Novel Framework for Image-to-image Translation and Image Compression
- Title(参考訳): 画像間翻訳と画像圧縮のための新しいフレームワーク
- Authors: Fei Yang, Yaxing Wang, Luis Herranz, Yongmei Cheng, Mikhail Mozerov
- Abstract要約: 本稿では,単一のフレームワークで翻訳と自動エンコーディングの両機能を実現する統一フレームワークを提案する。
実験では、単一のモデルを用いたI2I翻訳と画像圧縮の両方において有望な結果を示す。
- 参考スコア(独自算出の注目度): 23.79245225561719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data-driven paradigms using machine learning are becoming ubiquitous in image
processing and communications. In particular, image-to-image (I2I) translation
is a generic and widely used approach to image processing problems, such as
image synthesis, style transfer, and image restoration. At the same time,
neural image compression has emerged as a data-driven alternative to
traditional coding approaches in visual communications. In this paper, we study
the combination of these two paradigms into a joint I2I compression and
translation framework, focusing on multi-domain image synthesis. We first
propose distributed I2I translation by integrating quantization and entropy
coding into an I2I translation framework (i.e. I2Icodec). In practice, the
image compression functionality (i.e. autoencoding) is also desirable,
requiring to deploy alongside I2Icodec a regular image codec. Thus, we further
propose a unified framework that allows both translation and autoencoding
capabilities in a single codec. Adaptive residual blocks conditioned on the
translation/compression mode provide flexible adaptation to the desired
functionality. The experiments show promising results in both I2I translation
and image compression using a single model.
- Abstract(参考訳): 画像処理と通信において、機械学習を使用したデータ駆動パラダイムがユビキタスになりつつある。
特に、イメージ・トゥ・イメージ(I2I)変換は、画像合成、スタイル転送、画像復元といった画像処理問題に対して、汎用的で広く用いられているアプローチである。
同時に、ニューラルイメージ圧縮は、視覚コミュニケーションにおける従来のコーディングアプローチに代わるデータ駆動型として登場した。
本稿では,これら2つのパラダイムを統合i2i圧縮変換フレームワークに組み合わせ,多領域画像合成に焦点をあてた。
まず、量子化とエントロピー符号化をI2I翻訳フレームワーク(I2Icodec)に統合して分散I2I翻訳を提案する。
実際には、イメージ圧縮機能(オートエンコーディング)も望まれており、通常のイメージコーデックとI2Icodecを併用してデプロイする必要がある。
そこで我々は,単一コーデックにおいて翻訳機能と自動エンコーディング機能の両方を可能にする統一フレームワークを提案する。
翻訳/圧縮モードで条件付けられた適応残差ブロックは、所望の機能に柔軟に適応する。
実験の結果,単一のモデルを用いたI2I翻訳と画像圧縮に有望な結果が得られた。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Universal Deep Image Compression via Content-Adaptive Optimization with
Adapters [43.291753358414255]
ディープイメージ圧縮は、自然画像上のJPEGのような従来のコーデックよりも優れている。
深部画像圧縮は学習ベースであり、領域外画像に対して圧縮性能が著しく低下する問題に直面する。
本研究の目的は,自然画像や線画,漫画などの任意の領域に属する画像を圧縮することである。
論文 参考訳(メタデータ) (2022-11-02T07:01:30Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。