論文の概要: LDMIC: Learning-based Distributed Multi-view Image Coding
- arxiv url: http://arxiv.org/abs/2301.09799v1
- Date: Tue, 24 Jan 2023 03:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:28:24.182917
- Title: LDMIC: Learning-based Distributed Multi-view Image Coding
- Title(参考訳): LDMIC:学習型分散マルチビュー画像符号化
- Authors: Xinjie Zhang, Jiawei Shao, Jun Zhang
- Abstract要約: マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。
既存の方法では、残りの情報だけでなく、対応する差分を圧縮するためにジョイントエンコーディングが必要である。
学習に基づく分散マルチビュー画像符号化フレームワークを設計する。
- 参考スコア(独自算出の注目度): 5.157089773775356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-view image compression plays a critical role in 3D-related
applications. Existing methods adopt a predictive coding architecture, which
requires joint encoding to compress the corresponding disparity as well as
residual information. This demands collaboration among cameras and enforces the
epipolar geometric constraint between different views, which makes it
challenging to deploy these methods in distributed camera systems with randomly
overlapping fields of view. Meanwhile, distributed source coding theory
indicates that efficient data compression of correlated sources can be achieved
by independent encoding and joint decoding, which motivates us to design a
learning-based distributed multi-view image coding (LDMIC) framework. With
independent encoders, LDMIC introduces a simple yet effective joint context
transfer module based on the cross-attention mechanism at the decoder to
effectively capture the global inter-view correlations, which is insensitive to
the geometric relationships between images. Experimental results show that
LDMIC significantly outperforms both traditional and learning-based MIC methods
while enjoying fast encoding speed. Code will be released at
https://github.com/Xinjie-Q/LDMIC.
- Abstract(参考訳): マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。
既存の手法では予測符号化アーキテクチャが採用されており、その場合の差分と残差情報を圧縮するために共同符号化が必要となる。
これにより、カメラ間のコラボレーションが要求され、異なるビュー間のエピポーラ幾何学的制約が強制されるため、ランダムに重なり合う視野を持つ分散カメラシステムにおいて、これらの方法の展開が困難になる。
一方、分散音源符号化理論は、独立符号化と共同復号により相関音源の効率的なデータ圧縮を実現することが可能であり、学習に基づく分散多視点画像符号化(LDMIC)フレームワークの設計を動機付けている。
独立エンコーダでは、画像間の幾何学的関係に敏感なグローバルなビュー間相関を効果的に捉えるために、デコーダのクロスアテンション機構に基づくシンプルで効果的なジョイントコンテキスト転送モジュールを導入する。
実験の結果,LDMICは符号化速度を高速に保ちながら,従来のMIC法と学習ベースのMIC法の両方に優れていた。
コードはhttps://github.com/Xinjie-Q/LDMICでリリースされる。
関連論文リスト
- UniMIC: Towards Universal Multi-modality Perceptual Image Compression [21.370591256689885]
汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
論文 参考訳(メタデータ) (2024-12-06T10:08:55Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - MouSi: Poly-Visual-Expert Vision-Language Models [132.58949014605477]
本稿では,個々の視覚エンコーダの能力の相乗化にアンサンブルエキスパート技術を用いることを提案する。
この技術は、異なる視覚専門家の出力の処理を統一する融合ネットワークを導入する。
本実装では,SAMなどのモデルにおける位置占有率を,実質的な4096からより効率的で管理可能な64,さらには1。
論文 参考訳(メタデータ) (2024-01-30T18:09:11Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Neural Distributed Image Compression with Cross-Attention Feature
Alignment [1.2234742322758418]
一対のステレオ画像は、重なり合う視野を持ち、同期および校正された一対のカメラによってキャプチャされる。
1つの画像は圧縮・送信され、もう1つの画像はデコーダでのみ利用できると仮定する。
提案アーキテクチャでは、入力画像をDNNを用いて潜時空間にマッピングし、潜時表現を定量化し、エントロピー符号化を用いて無害に圧縮する。
論文 参考訳(メタデータ) (2022-07-18T10:15:04Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Coding for Distributed Multi-Agent Reinforcement Learning [12.366967700730449]
ストラグラーは、様々なシステム障害が存在するため、分散学習システムで頻繁に発生する。
本稿では,ストラグラーの存在下でのMARLアルゴリズムの学習を高速化する分散学習フレームワークを提案する。
最大距離分離可能(MDS)コード、ランダムスパースコード、レプリケーションベースのコード、通常の低密度パリティチェック(LDPC)コードなど、さまざまなコーディングスキームも検討されている。
論文 参考訳(メタデータ) (2021-01-07T00:22:34Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。