論文の概要: Region-Adaptive Transform with Segmentation Prior for Image Compression
- arxiv url: http://arxiv.org/abs/2403.00628v1
- Date: Fri, 1 Mar 2024 16:03:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 16:56:45.692370
- Title: Region-Adaptive Transform with Segmentation Prior for Image Compression
- Title(参考訳): 画像圧縮に先立って分割した領域適応変換
- Authors: Yuxi Liu, Wenhan Yang, Huihui Bai, Yunchao Wei, and Yao Zhao
- Abstract要約: 本稿では,地域適応型文脈情報抽出のためのクラス非依存セグメンテーションマスクを提案する。
提案モジュールであるRerea-Adaptive Transformは,マスクによって導かれる異なる領域に適応的な畳み込みを適用する。
我々は、特権情報としてクラス非依存マスクを初めて採用し、画素忠実度測定において優れた性能を達成した。
- 参考スコア(独自算出の注目度): 105.17604572081177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned Image Compression (LIC) has shown remarkable progress in recent
years. Existing works commonly employ CNN-based or self-attention-based modules
as transform methods for compression. However, there is no prior research on
neural transform that focuses on specific regions. In response, we introduce
the class-agnostic segmentation masks (i.e. semantic masks without category
labels) for extracting region-adaptive contextual information. Our proposed
module, Region-Adaptive Transform, applies adaptive convolutions on different
regions guided by the masks. Additionally, we introduce a plug-and-play module
named Scale Affine Layer to incorporate rich contexts from various regions.
While there have been prior image compression efforts that involve segmentation
masks as additional intermediate inputs, our approach differs significantly
from them. Our advantages lie in that, to avoid extra bitrate overhead, we
treat these masks as privilege information, which is accessible during the
model training stage but not required during the inference phase. To the best
of our knowledge, we are the first to employ class-agnostic masks as privilege
information and achieve superior performance in pixel-fidelity metrics, such as
Peak Signal to Noise Ratio (PSNR). The experimental results demonstrate our
improvement compared to previously well-performing methods, with about 8.2%
bitrate saving compared to VTM-17.0. The code will be released at
https://github.com/GityuxiLiu/Region-Adaptive-Transform-with-Segmentation-Prior-for-Image-Compressio n.
- Abstract(参考訳): Learned Image Compression (LIC)は近年顕著な進歩を見せている。
既存の作業では、圧縮の変換方法としてCNNベースのモジュールや自己アテンションベースのモジュールが一般的である。
しかし、特定の領域に焦点を当てた神経変換に関する先行研究は存在しない。
そこで本研究では,地域適応型文脈情報抽出のための分類非依存セグメンテーションマスク(セグメンテーションマスク)を提案する。
提案する領域適応変換モジュールは,マスクが誘導する異なる領域に適応畳み込みを適用する。
さらに,様々な領域のリッチなコンテキストを組み込むために,Scale Affine Layerというプラグイン・アンド・プレイモジュールを導入する。
セグメンテーションマスクを追加の中間入力として用いた画像圧縮作業は以前から行われているが,本手法とは大きく異なる。
我々の利点は、余分なビットレートオーバーヘッドを避けるために、これらのマスクを特権情報として扱い、モデルトレーニング段階ではアクセス可能であるが、推論フェーズでは不要である。
我々の知る限り、我々は初めて特権情報としてクラス非依存マスクを採用し、Pak Signal to Noise Ratio (PSNR) などの画素忠実度測定において優れた性能を達成した。
実験の結果,VTM-17.0に比べて約8.2%のビットレート保存が可能であった。
コードはhttps://github.com/GityuxiLiu/Region-Adaptive-Transform-with-Segmentation-Prior-for-Image-Compressio nでリリースされる。
関連論文リスト
- Semantic Refocused Tuning for Open-Vocabulary Panoptic Segmentation [42.020470627552136]
Open-vocabulary Panoptic segmentationは、イメージを意味のあるマスクに正確に分割することを目的とした、新たなタスクである。
マスク分類は、オープンボキャブ・パノプティクスのセグメンテーションにおける主要なパフォーマンスボトルネックである。
オープンボキャブ・パノプティクスのセグメンテーションを大幅に強化する新しいフレームワークであるセマンティック・リフォーカス・タニングを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:50:28Z) - Variance-insensitive and Target-preserving Mask Refinement for
Interactive Image Segmentation [68.16510297109872]
ポイントベースのインタラクティブなイメージセグメンテーションは、セマンティックセグメンテーションや画像編集といったアプリケーションにおけるマスクアノテーションの負担を軽減することができる。
本稿では,ユーザ入力の少ないセグメンテーション品質を向上する新しい手法である可変無感・ターゲット保存マスクリファインメントを提案する。
GrabCut、バークレー、SBD、DAVISデータセットの実験は、インタラクティブな画像セグメンテーションにおける我々の手法の最先端性能を実証している。
論文 参考訳(メタデータ) (2023-12-22T02:31:31Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - Open-Vocabulary Semantic Segmentation with Mask-adapted CLIP [45.81698881151867]
Open-vocabulary semantic segmentationは、トレーニング中に見られなかったかもしれないテキスト記述に従って、イメージをセマンティック領域に分割することを目的としている。
最近の2段階の手法では、まずクラスに依存しないマスクの提案を生成し、次にCLIPなどの事前訓練された視覚言語モデルを利用してマスク付き領域を分類する。
マスクされた画像領域とその対応するテキスト記述の集合上でCLIPを微調整する。
特に、COCOで訓練しADE20K-150で評価すると、我々の最良のモデルは29.6% mIoUであり、これは以前の状態より+8.5%高い。
論文 参考訳(メタデータ) (2022-10-09T02:57:32Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。