論文の概要: Complementary Bi-directional Feature Compression for Indoor 360{\deg}
Semantic Segmentation with Self-distillation
- arxiv url: http://arxiv.org/abs/2207.02437v1
- Date: Wed, 6 Jul 2022 05:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 13:57:32.224726
- Title: Complementary Bi-directional Feature Compression for Indoor 360{\deg}
Semantic Segmentation with Self-distillation
- Title(参考訳): 自己蒸留による360{\deg}セマンティックセグメンテーションにおける相補的双方向特徴圧縮
- Authors: Zishuo Zheng, Chunyu Lin, Lang Nie, Kang Liao, Zhijie Shen, Yao Zhao
- Abstract要約: 相補的な観点から,新しい360degセマンティックセマンティックセマンティクスソリューションを提案する。
提案手法は, 定量的評価において, 少なくとも10%改善した最先端のソリューションよりも優れている。
- 参考スコア(独自算出の注目度): 37.82642960470551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, horizontal representation-based panoramic semantic segmentation
approaches outperform projection-based solutions, because the distortions can
be effectively removed by compressing the spherical data in the vertical
direction. However, these methods ignore the distortion distribution prior and
are limited to unbalanced receptive fields, e.g., the receptive fields are
sufficient in the vertical direction and insufficient in the horizontal
direction. Differently, a vertical representation compressed in another
direction can offer implicit distortion prior and enlarge horizontal receptive
fields. In this paper, we combine the two different representations and propose
a novel 360{\deg} semantic segmentation solution from a complementary
perspective. Our network comprises three modules: a feature extraction module,
a bi-directional compression module, and an ensemble decoding module. First, we
extract multi-scale features from a panorama. Then, a bi-directional
compression module is designed to compress features into two complementary
low-dimensional representations, which provide content perception and
distortion prior. Furthermore, to facilitate the fusion of bi-directional
features, we design a unique self distillation strategy in the ensemble
decoding module to enhance the interaction of different features and further
improve the performance. Experimental results show that our approach
outperforms the state-of-the-art solutions with at least 10\% improvement on
quantitative evaluations while displaying the best performance on visual
appearance.
- Abstract(参考訳): 近年,球面データを垂直方向に圧縮することで歪みを効果的に除去できるため,水平表現に基づくパノラマセマンティクスセグメンテーションがプロジェクションベースソリューションを上回っている。
しかし、これらの手法は歪み分布を事前に無視し、不均衡な受容場に限定される。例えば、受容場は垂直方向に十分であり、水平方向には不十分である。
別の方向に圧縮された垂直表現は、暗黙の歪みを前もって与え、水平受容場を拡大することができる。
本稿では,2つの異なる表現を組み合わせて,相補的な視点から新しい360{\deg}セマンティックセマンティックセグメンテーションソリューションを提案する。
本ネットワークは,特徴抽出モジュール,双方向圧縮モジュール,アンサンブル復号モジュールの3つのモジュールから構成される。
まず,パノラマからマルチスケールの特徴を抽出する。
次に、双方向圧縮モジュールは、特徴を2つの相補的な低次元表現に圧縮するように設計され、コンテンツ知覚と事前歪みを提供する。
さらに, 双方向特徴の融合を容易にするため, アンサンブル復号モジュールに独自の自己蒸留戦略を設計し, 異なる特徴の相互作用を高め, 性能を向上させる。
実験の結果,本手法は最先端ソリューションを上回り,定量的評価では少なくとも10~%改善し,視覚的な外観で最高の性能を発揮できることがわかった。
関連論文リスト
- Bidirectional Stereo Image Compression with Cross-Dimensional Entropy Model [11.959608742884408]
BiSICは対称ステレオ画像圧縮アーキテクチャである。
本研究では,局所的な特徴を捉え,グローバルな特徴を活用するために双方向の注意ブロックを組み込む3次元畳み込みに基づくバックボーンを提案する。
提案するBiSICは,従来の画像/ビデオ圧縮規格より優れている。
論文 参考訳(メタデータ) (2024-07-15T11:36:22Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Pseudocylindrical Convolutions for Learned Omnidirectional Image
Compression [42.15877732557837]
我々は、全方位画像圧縮のためのディープニューラルネットワークを初めて学習する試みの1つである。
パラメトリック表現に関する合理的な制約の下では、擬円筒的畳み込みは標準畳み込みによって効率的に実装できる。
実験結果から,提案手法は競合手法よりも高い速度歪み性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-12-25T12:18:32Z) - UniFuse: Unidirectional Fusion for 360$^{\circ}$ Panorama Depth
Estimation [11.680475784102308]
本稿では,2つのプロジェクションから特徴を融合する新しいフレームワークを提案する。
提案した融合戦略とモジュールの有効性を実験により検証し、4つの一般的なデータセット上で最先端の性能を達成する。
論文 参考訳(メタデータ) (2021-02-06T10:01:09Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Improving Inference for Neural Image Compression [31.999462074510305]
State-of-the-art method build on Hierarchical variational autoencoders to predict a compressible latent representation of each data point。
従来の手法では性能を制限した3つの近似ギャップを同定する。
本稿では,これら3つの制約のそれぞれについて,反復的推論に関する考え方に基づく対策を提案する。
論文 参考訳(メタデータ) (2020-06-07T19:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。