論文の概要: Stereo Image Coding for Machines with Joint Visual Feature Compression
- arxiv url: http://arxiv.org/abs/2502.14190v1
- Date: Thu, 20 Feb 2025 01:46:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 17:43:58.333711
- Title: Stereo Image Coding for Machines with Joint Visual Feature Compression
- Title(参考訳): 視覚的特徴圧縮を有する機械のステレオ画像符号化
- Authors: Dengchao Jin, Jianjun Lei, Bo Peng, Zhaoqing Pan, Nam Ling, Qingming Huang,
- Abstract要約: 本稿では,機械用ステレオ画像符号化(SICM)について述べる。
SICMには,機械ビジョン指向ステレオ特徴圧縮ネットワーク (MVSFC-Net) が提案されている。
提案したMVSFC-Netは,3次元視覚タスクの性能だけでなく,圧縮効率も優れている。
- 参考スコア(独自算出の注目度): 69.28382442498408
- License:
- Abstract: 2D image coding for machines (ICM) has achieved great success in coding efficiency, while less effort has been devoted to stereo image fields. To promote the efficiency of stereo image compression (SIC) and intelligent analysis, the stereo image coding for machines (SICM) is formulated and explored in this paper. More specifically, a machine vision-oriented stereo feature compression network (MVSFC-Net) is proposed for SICM, where the stereo visual features are effectively extracted, compressed, and transmitted for 3D visual task. To efficiently compress stereo visual features in MVSFC-Net, a stereo multi-scale feature compression (SMFC) module is designed to gradually transform sparse stereo multi-scale features into compact joint visual representations by removing spatial, inter-view, and cross-scale redundancies simultaneously. Experimental results show that the proposed MVSFC-Net obtains superior compression efficiency as well as 3D visual task performance, when compared with the existing ICM anchors recommended by MPEG and the state-of-the-art SIC method.
- Abstract(参考訳): 機械用2次元画像符号化 (ICM) は, ステレオ画像場への取り組みを減らしながら, 符号化効率に大きな成功を収めている。
本稿では, ステレオ画像圧縮(SIC)とインテリジェント解析の効率化を目的として, 機械用ステレオ画像符号化(SICM)を定式化し, 検討した。
具体的には,機械ビジョン指向ステレオ特徴圧縮ネットワーク(MVSFC-Net)をSICMに提案し,ステレオ視覚特徴を効果的に抽出し,圧縮し,三次元視覚タスクに送信する。
MVSFC-Netのステレオ視覚的特徴を効率よく圧縮するために、ステレオ多スケール特徴圧縮(SMFC)モジュールは、空間的、ビュー間、およびクロススケール冗長性を同時に取り除き、スパースステレオ多スケール特徴をコンパクトな関節視覚表現に変換するように設計されている。
実験結果から,MPEGが推奨する既存のICMアンカーや最先端SIC法と比較すると,MVSFC-Netは圧縮効率と3次元視覚タスク性能に優れることがわかった。
関連論文リスト
- SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [55.02795214161371]
本研究ではセマンティック・マスケッドVQ-GAN(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化する手法を提案する。
SQ-GANは、セマンティックセマンティックセグメンテーションと新しいセマンティック条件適応マスクモジュール(SAMM)を使用して、画像のセマンティックな重要な特徴を選択的にエンコードする。
論文 参考訳(メタデータ) (2025-02-13T17:35:57Z) - Lightweight Multiplane Images Network for Real-Time Stereoscopic Conversion from Planar Video [29.199113565852645]
本稿では,Multi-plane Image(MPI)に基づくリアルタイム立体変換ネットワークを提案する。
暗黙的に深度認識機能を抽出するために、軽量な深度セマンティックブランチを使用している。
いくつかの最先端(SOTA)モデルに匹敵するパフォーマンスを実現し、2K解像度でのリアルタイム推論をサポートする。
論文 参考訳(メタデータ) (2024-12-04T08:04:14Z) - Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。
本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。
提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文 参考訳(メタデータ) (2024-07-15T11:36:22Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - CAMSIC: Content-aware Masked Image Modeling Transformer for Stereo Image Compression [15.819672238043786]
本稿では,CAMSICというステレオ画像圧縮フレームワークを提案する。
CAMSICは各画像を潜在表現に変換し、強力なデコーダフリートランスフォーマーエントロピーモデルを用いる。
実験により、我々のフレームワークは、最先端の速度歪み性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-13T13:12:57Z) - FFCA-Net: Stereo Image Compression via Fast Cascade Alignment of Side
Information [44.88123177525665]
マルチビュー圧縮技術、特にステレオ画像圧縮(SIC)は、車載カメラや3D関連アプリケーションにおいて重要な役割を果たす。
本稿では,デコーダの側情報を完全に活用する機能ベースの高速カスケードアライメントネットワーク(FFCA-Net)を提案する。
提案手法は,他の手法よりも3倍から10倍高速な復号化を実現する。
論文 参考訳(メタデータ) (2023-12-28T11:12:03Z) - ECSIC: Epipolar Cross Attention for Stereo Image Compression [5.024813922014978]
ECSICは,2つのステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮において,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-18T11:46:31Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。