論文の概要: Neural Distributed Image Compression with Cross-Attention Feature
Alignment
- arxiv url: http://arxiv.org/abs/2207.08489v1
- Date: Mon, 18 Jul 2022 10:15:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 18:44:12.573017
- Title: Neural Distributed Image Compression with Cross-Attention Feature
Alignment
- Title(参考訳): クロスアテンション特徴アライメントを用いたニューラル分散画像圧縮
- Authors: Nitish Mital, Ezgi Ozyilkan, Ali Garjani, Deniz Gunduz
- Abstract要約: 一対のステレオ画像は、重なり合う視野を持ち、同期および校正された一対のカメラによってキャプチャされる。
1つの画像は圧縮・送信され、もう1つの画像はデコーダでのみ利用できると仮定する。
提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
- 参考スコア(独自算出の注目度): 1.2234742322758418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel deep neural network (DNN) architecture for compressing an
image when a correlated image is available as side information only at the
decoder side, a special case of the well-known and heavily studied distributed
source coding (DSC) problem. In particular, we consider a pair of stereo
images, which have overlapping fields of view, captured by a synchronized and
calibrated pair of cameras; and therefore, are highly correlated. We assume
that one image of the pair is to be compressed and transmitted, while the other
image is available only at the decoder. In the proposed architecture, the
encoder maps the input image to a latent space using a DNN, quantizes the
latent representation, and compresses it losslessly using entropy coding. The
proposed decoder extracts useful information common between the images solely
from the available side information, as well as a latent representation of the
side information. Then, the latent representations of the two images, one
received from the encoder, the other extracted locally, along with the locally
generated common information, are fed to the respective decoders of the two
images. We employ a cross-attention module (CAM) to align the feature maps
obtained in the intermediate layers of the respective decoders of the two
images, thus allowing better utilization of the side information. We train and
demonstrate the effectiveness of the proposed algorithm on various realistic
setups, such as KITTI and Cityscape datasets of stereo image pairs. Our results
show that the proposed architecture is capable of exploiting the decoder-only
side information in a more efficient manner as it outperforms previous works.
We also show that the proposed method is able to provide significant gains even
in the case of uncalibrated and unsynchronized camera array use cases.
- Abstract(参考訳): 本稿では,デコーダ側でのみ,相関画像がサイド情報として利用できる場合に,画像の圧縮を行う新しいディープニューラルネットワーク(DNN)アーキテクチャを提案する。
特に、重なり合う視野を持つ一対のステレオ画像は、同期して調整された一対のカメラによって撮影されるため、高い相関性を有する。
ペアの1つのイメージは圧縮され、送信され、もう1つのイメージはデコーダでのみ利用可能であると仮定する。
提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
提案するデコーダは、利用可能な側情報のみから画像間で共通する有用な情報と、側情報の潜在表現を抽出する。
そして、エンコーダから受信した2つの画像と、ローカルに生成された共通情報とから抽出された2つの画像の潜在表現を、2つの画像の各デコーダに供給する。
2つの画像の各デコーダの中間層で得られた特徴マップを調整するために、cross-attention module (cam) を用いる。
ステレオ画像ペアのKITTIやCityscapeデータセットなど,さまざまな現実的な設定で提案アルゴリズムの有効性を訓練し,実証する。
この結果から,提案アーキテクチャは,従来よりも効率よくデコーダのみの側情報を活用できることが示唆された。
また,非校正型および非同期型カメラアレイのユースケースにおいても,提案手法が大きな利益をもたらすことを示す。
関連論文リスト
- Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
論文 参考訳(メタデータ) (2024-03-13T13:12:57Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - A Multi-Stream Fusion Network for Image Splicing Localization [18.505512386111985]
本稿では,複数のエンコーダストリームからなるエンコーダデコーダアーキテクチャを提案する。
各ストリームは、改ざんされた画像または手作りの信号で供給され、個別に処理され、各ストリームから関連する情報を分離して取得する。
複数のストリームから抽出された特徴は、アーキテクチャのボトルネックに融合し、出力のローカライゼーションマップを生成するデコーダネットワークに伝播する。
論文 参考訳(メタデータ) (2022-12-02T12:17:53Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - A New Image Codec Paradigm for Human and Machine Uses [53.48873918537017]
本研究では,人間用と機械用の両方にスケーラブルな画像パラダイムを提案する。
高レベルのインスタンスセグメンテーションマップと低レベルの信号特徴をニューラルネットワークで抽出する。
画像は16ビットのグレースケールプロファイルと信号特徴を持つ一般的な画質のイメージ再構成を実現するために設計および訓練される。
論文 参考訳(メタデータ) (2021-12-19T06:17:38Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Deep Stereo Image Compression with Decoder Side Information using Wyner
Common Information [1.5293427903448022]
一対のステレオ画像は、一般的に、重なり合う視野によって互いに高い相関関係を持ち、その対の1つの画像が圧縮され送信されると仮定する。
提案したアーキテクチャでは、エンコーダは入力画像を潜在空間にマッピングし、潜在表現を定量化し、エントロピー符号化を用いて圧縮する。
デコーダは、入力画像と相関画像との間のワイナーの共通情報を後者から抽出するように訓練される。
論文 参考訳(メタデータ) (2021-06-22T12:46:31Z) - Two-stream Encoder-Decoder Network for Localizing Image Forgeries [4.982505311411925]
本稿では,高レベル画像と低レベル画像の両方を利用する2ストリームエンコーダデコーダネットワークを提案する。
提案手法の性能評価のために,複数の標準法医学データセットの実験的検討を行った。
論文 参考訳(メタデータ) (2020-09-27T15:49:17Z) - Wireless Image Retrieval at the Edge [20.45405359815043]
本研究では、エッジデバイスが画像をキャプチャし、エッジサーバから同様の画像を検索するために使用される無線エッジにおける画像検索問題について検討する。
我々の目標は、無線リンクに対する電力及び帯域幅制約下での検索タスクの精度を最大化することである。
本稿では,デジタル通信とアナログ通信の2つの方法を提案する。
論文 参考訳(メタデータ) (2020-07-21T16:15:40Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。