論文の概要: ECSIC: Epipolar Cross Attention for Stereo Image Compression
- arxiv url: http://arxiv.org/abs/2307.10284v2
- Date: Fri, 8 Dec 2023 12:40:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:38:39.508206
- Title: ECSIC: Epipolar Cross Attention for Stereo Image Compression
- Title(参考訳): ECSIC:ステレオ画像圧縮のための極端交差注意
- Authors: Matthias W\"odlinger, Jan Kotera, Manuel Keglevic, Jan Xu and Robert
Sablatnig
- Abstract要約: ECSICは,2つのステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮において,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 5.024813922014978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ECSIC, a novel learned method for stereo image
compression. Our proposed method compresses the left and right images in a
joint manner by exploiting the mutual information between the images of the
stereo image pair using a novel stereo cross attention (SCA) module and two
stereo context modules. The SCA module performs cross-attention restricted to
the corresponding epipolar lines of the two images and processes them in
parallel. The stereo context modules improve the entropy estimation of the
second encoded image by using the first image as a context. We conduct an
extensive ablation study demonstrating the effectiveness of the proposed
modules and a comprehensive quantitative and qualitative comparison with
existing methods. ECSIC achieves state-of-the-art performance in stereo image
compression on the two popular stereo image datasets Cityscapes and InStereo2k
while allowing for fast encoding and decoding.
- Abstract(参考訳): 本稿では,ステレオ画像圧縮のための新しい学習手法であるecsicを提案する。
提案手法は,新しいステレオクロスアテンション(sca)モジュールと2つのステレオコンテクストモジュールを用いて,ステレオイメージペアのイメージ間の相互情報を活用し,左右画像の協調圧縮を行う。
SCAモジュールは、2つの画像の対応するエピポーラ線に制限されたクロスアテンションを実行し、それらを並列に処理する。
ステレオコンテキストモジュールは、第1の画像をコンテキストとして使用することにより、第2の符号化画像のエントロピー推定を改善する。
本研究は,提案モジュールの有効性を実証する広範囲なアブレーション研究と,既存手法との比較を行った。
ECSICは2つの人気のあるステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮における最先端のパフォーマンスを実現し、高速な符号化と復号を可能にする。
関連論文リスト
- Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。
本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。
提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文 参考訳(メタデータ) (2024-07-15T11:36:22Z) - Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により,本フレームワークは2つのステレオ画像データセット上で,最先端の速度歪み性能を実現することが示された。
論文 参考訳(メタデータ) (2024-03-13T13:12:57Z) - StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models [2.9260206957981167]
StereoDiffusionを紹介します。これは、無償でトレーニングし、驚くほど簡単に使用でき、元のStable Diffusionモデルにシームレスに統合する手法です。
提案手法は,ステレオ画像ペアを高速に生成するためのエンドツーエンドで軽量な機能を実現するために潜時変数を変更する。
提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。
論文 参考訳(メタデータ) (2024-03-08T00:30:25Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - Single-View View Synthesis with Self-Rectified Pseudo-Stereo [49.946151180828465]
疑似ステレオ視点を生成する前に、信頼性と明示的なステレオを利用する。
本稿では,自己修正ステレオ合成法を提案する。
本手法は,最先端の単一ビュービュー合成法およびステレオ合成法より優れる。
論文 参考訳(メタデータ) (2023-04-19T09:36:13Z) - Active-Passive SimStereo -- Benchmarking the Cross-Generalization
Capabilities of Deep Learning-based Stereo Methods [26.662129158141763]
自己相似領域やbland領域は、2つの画像間のパッチの一致を難しくする。
アクティブステレオベースの手法は、シーンに擬似ランダムパターンを投影することでこの問題を軽減する。
このパターンが対向雑音の一形態として振る舞うと、深層学習法の性能に悪影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-09-17T10:30:32Z) - Neural Distributed Image Compression with Cross-Attention Feature
Alignment [1.2234742322758418]
一対のステレオ画像は、重なり合う視野を持ち、同期および校正された一対のカメラによってキャプチャされる。
1つの画像は圧縮・送信され、もう1つの画像はデコーダでのみ利用できると仮定する。
提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
論文 参考訳(メタデータ) (2022-07-18T10:15:04Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Stereo Unstructured Magnification: Multiple Homography Image for View
Synthesis [72.09193030350396]
立体非構造倍率と呼ばれる一対の画像から一定の回転数で視線合成の問題を考察する。
固定された正規度と距離を持つシーン平面の集合からなる,新しいマルチホモグラフィ画像表現を提案する。
角度に基づくコストを導出し, 正規形状ごとのブレンディングを導出する。
論文 参考訳(メタデータ) (2022-04-01T01:39:28Z) - Parallax Attention for Unsupervised Stereo Correspondence Learning [46.035892564279564]
ステレオ画像対は、3Dシーンキューを左画像と右画像のステレオ対応に符号化する。
近年のCNNベースの手法では,大域にわたるステレオ対応を捉えるために,コストボリューム技術が一般的である。
本稿では, 相違によらずステレオ対応を捉えるために, 汎用パララックスアテンション機構(PAM)を提案する。
論文 参考訳(メタデータ) (2020-09-16T01:30:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。