論文の概要: ROI-based Deep Image Compression with Swin Transformers
- arxiv url: http://arxiv.org/abs/2305.07783v1
- Date: Fri, 12 May 2023 22:05:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:47:47.117218
- Title: ROI-based Deep Image Compression with Swin Transformers
- Title(参考訳): スイニングトランスを用いたROIに基づく深部画像圧縮
- Authors: Binglin Li and Jie Liang and Haisheng Fu and Jingning Han
- Abstract要約: バックグラウンドよりも高品質な関心の領域(ROI)には、ビデオ会議システムを含む多くのアプリケーションがあります。
自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.044999439481511
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Encoding the Region Of Interest (ROI) with better quality than the background
has many applications including video conferencing systems, video surveillance
and object-oriented vision tasks. In this paper, we propose a ROI-based image
compression framework with Swin transformers as main building blocks for the
autoencoder network. The binary ROI mask is integrated into different layers of
the network to provide spatial information guidance. Based on the ROI mask, we
can control the relative importance of the ROI and non-ROI by modifying the
corresponding Lagrange multiplier $ \lambda $ for different regions.
Experimental results show our model achieves higher ROI PSNR than other methods
and modest average PSNR for human evaluation. When tested on models pre-trained
with original images, it has superior object detection and instance
segmentation performance on the COCO validation dataset.
- Abstract(参考訳): 関心領域(roi)を背景よりも品質良くエンコーディングするには、ビデオ会議システム、ビデオ監視、オブジェクト指向ビジョンタスクなど、多くのアプリケーションがある。
本稿では,自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。
バイナリroiマスクはネットワークの異なる層に統合され、空間情報ガイダンスを提供する。
ROIマスクに基づいて、対応するLagrange乗算器$ \lambda $を異なるリージョンで変更することで、ROIと非ROIの相対的な重要性を制御できます。
実験結果から,本モデルは他の手法よりもROIPSNRが高く,人体評価に適した平均PSNRが得られた。
オリジナルイメージで事前トレーニングされたモデルでテストすると、coco validationデータセット上で優れたオブジェクト検出とインスタンスセグメンテーション性能が得られる。
関連論文リスト
- ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image
Identification [1.9580473532948401]
我々は、新しいROI対応マルチスケール・クロスアテンション・ビジョン・トランス (ROI-ViT) を提案する。
提案したROI-ViTは、PestとROIブランチと呼ばれる2つのブランチを使って設計されている。
実験の結果、提案されたROI-ViTはそれぞれIP102、D0、SauTegの害虫データセットに対して81.81%、99.64%、84.66%を達成した。
論文 参考訳(メタデータ) (2023-12-28T09:16:27Z) - Investigating the Robustness and Properties of Detection Transformers
(DETR) Toward Difficult Images [1.5727605363545245]
トランスフォーマーベースのオブジェクト検出器(DETR)は、マシンビジョンタスク間で大きな性能を示している。
対処すべき重要な問題は、このモデルアーキテクチャがどのように異なるイメージニュアンスを扱うことができるかである。
本研究では,DeTRの性能を異なる実験で測定し,ネットワークのベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-12T23:38:52Z) - Transformer-based Variable-rate Image Compression with
Region-of-interest Control [24.794581811606445]
本稿では,変換器を用いた学習画像圧縮システムを提案する。
関心の領域機能をサポートしながら、単一のモデルで可変レート圧縮を実現することができる。
論文 参考訳(メタデータ) (2023-05-18T08:40:34Z) - Hierarchical Similarity Learning for Aliasing Suppression Image
Super-Resolution [64.15915577164894]
エイリアスの影響を抑制するために階層画像超解像ネットワーク(HSRNet)を提案する。
HSRNetは、他の作品よりも定量的かつ視覚的なパフォーマンスを向上し、エイリアスをより効果的に再送信する。
論文 参考訳(メタデータ) (2022-06-07T14:55:32Z) - Region-of-Interest Based Neural Video Compression [19.81699221664852]
ROIに基づくニューラルビデオ符号化のための2つのモデルを導入する。
まず,2値のROIマスクで入力される暗黙のモデルを提案し,背景の歪みを非強調にすることで学習する。
我々は、ROIにおけるR-D(Ryse-Distortion)のパフォーマンスにおいて、私たちのメソッドがすべてのベースラインを上回っていることを示します。
論文 参考訳(メタデータ) (2022-03-03T19:37:52Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Deep Burst Super-Resolution [165.90445859851448]
バースト超解像タスクのための新しいアーキテクチャを提案する。
我々のネットワークは複数のノイズRAW画像を入力として取り出し、出力として分解された超解像RGB画像を生成する。
実世界のデータのトレーニングと評価を可能にするため,BurstSRデータセットも導入する。
論文 参考訳(メタデータ) (2021-01-26T18:57:21Z) - Real Image Super Resolution Via Heterogeneous Model Ensemble using
GP-NAS [63.48801313087118]
本稿では,高密度スキップ接続を有するディープ残差ネットワークを用いた画像超解像法を提案する。
提案手法は、AIM 2020 Real Image Super-Resolution Challengeの3トラックで1位を獲得した。
論文 参考訳(メタデータ) (2020-09-02T22:33:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。