論文の概要: Equirectangular image construction method for standard CNNs for Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2310.09122v1
- Date: Fri, 13 Oct 2023 14:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 12:48:56.804389
- Title: Equirectangular image construction method for standard CNNs for Semantic
Segmentation
- Title(参考訳): セマンティックセグメンテーションのための標準CNNの等角形状画像構築法
- Authors: Haoqian Chen, Jian Liu, Minghe Li, Kaiwen Jiang, Ziheng Xu, Rencheng
Sun and Yi Sui
- Abstract要約: 視線画像を等角形に変換する手法を提案する。
球面中心投射と等距離円筒投射の逆変換を用いる。
実験により、正方形画像の効果的なセマンティックセグメンテーションのためのphiの最適値は標準CNNの6pi/16であることが示されている。
- 参考スコア(独自算出の注目度): 5.5856758231015915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 360{\deg} spherical images have advantages of wide view field, and are
typically projected on a planar plane for processing, which is known as
equirectangular image. The object shape in equirectangular images can be
distorted and lack translation invariance. In addition, there are few publicly
dataset of equirectangular images with labels, which presents a challenge for
standard CNNs models to process equirectangular images effectively. To tackle
this problem, we propose a methodology for converting a perspective image into
equirectangular image. The inverse transformation of the spherical center
projection and the equidistant cylindrical projection are employed. This
enables the standard CNNs to learn the distortion features at different
positions in the equirectangular image and thereby gain the ability to
semantically the equirectangular image. The parameter, {\phi}, which determines
the projection position of the perspective image, has been analyzed using
various datasets and models, such as UNet, UNet++, SegNet, PSPNet, and DeepLab
v3+. The experiments demonstrate that an optimal value of {\phi} for effective
semantic segmentation of equirectangular images is 6{\pi}/16 for standard CNNs.
Compared with the other three types of methods (supervised learning,
unsupervised learning and data augmentation), the method proposed in this paper
has the best average IoU value of 43.76%. This value is 23.85%, 10.7% and
17.23% higher than those of other three methods, respectively.
- Abstract(参考訳): 360{\deg}球面画像は広視野の利点を持ち、通常は等角像として知られる平面上に投影される。
等角像の物体形状は歪められ、翻訳不変性が欠如する。
さらに、ラベル付き等方形画像の公開データセットは少なく、標準CNNモデルが等方形画像を効果的に処理することが課題である。
この問題に対処するために,視線画像を等角形に変換する手法を提案する。
球面中心投射と等距離円筒投射の逆変換を用いる。
これにより、標準CNNは、等方形画像の異なる位置における歪み特徴を学習し、等方形画像を意味的に得ることができる。
視点画像の投影位置を決定するパラメータ {\phi} は、UNet、UNet++、SegNet、PSPNet、DeepLab v3+といったさまざまなデータセットとモデルを用いて分析されている。
実験により,正方形画像の効果的なセマンティックセグメンテーションには,標準CNNでは6{\pi}/16が最適であることが示された。
他の3種類の方法(教師付き学習、教師なし学習、データ拡張)と比較すると、本論文で提案する手法は平均iou値が43.76%である。
この値は、他の3つの方法よりもそれぞれ23.85%、10.7%、17.23%高い。
関連論文リスト
- Combining Image- and Geometric-based Deep Learning for Shape Regression:
A Comparison to Pixel-level Methods for Segmentation in Chest X-Ray [0.07143413923310668]
本稿では,軽量なCNNバックボーンと幾何学的ニューラルネットワーク(Point Transformer)を組み合わせたハイブリッド手法を提案する。
我々は、nnU-Netを上位ベースラインとして含み、提案したメソッドよりも3.7倍のトレーニング可能なパラメータを持つ。
論文 参考訳(メタデータ) (2024-01-15T09:03:50Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - VoGE: A Differentiable Volume Renderer using Gaussian Ellipsoids for
Analysis-by-Synthesis [62.47221232706105]
本稿では,ガウス再構成カーネルをボリュームプリミティブとして利用するVoGEを提案する。
本稿では,VoGEを用いて効率よくレンダリングを行うために,体積密度集約と粗大な描画戦略に関する近似クローズフォーム解を提案する。
VoGEは、オブジェクトポーズ推定、形状/テクスチャフィッティング、推論など、様々な視覚タスクに適用された場合、SoTAより優れている。
論文 参考訳(メタデータ) (2022-05-30T19:52:11Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - TransformNet: Self-supervised representation learning through predicting
geometric transformations [0.8098097078441623]
入力データに適用された幾何変換の認識のための教師なし意味特徴学習手法について述べる。
我々のアプローチの基本概念は、画像中の物体を知らない人が、それらに適用された幾何学的変換を定量的に予測できないことである。
論文 参考訳(メタデータ) (2022-02-08T22:41:01Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - Learning Equivariant Representations [10.745691354609738]
畳み込みニューラルネットワーク(CNN)はこの原理の成功例である。
対称性の群で定義される異なる変換に対する同変モデルを提案する。
これらのモデルはデータの対称性を利用して、サンプルとモデルの複雑さを減らし、一般化性能を向上させる。
論文 参考訳(メタデータ) (2020-12-04T18:46:17Z) - What Does CNN Shift Invariance Look Like? A Visualization Study [87.79405274610681]
畳み込みニューラルネットワーク(CNN)による特徴抽出は、機械学習タスクの画像を表現する一般的な方法である。
我々は,一般的な市販CNNモデルから抽出した特徴量の変動を計測し,可視化することに注力する。
人気ネットワークから抽出された特徴はグローバルに不変ではなく,この分散の中にバイアスやアーティファクトが存在すると結論付けている。
論文 参考訳(メタデータ) (2020-11-09T01:16:30Z) - How semantic and geometric information mutually reinforce each other in
ToF object localization [19.47618043504105]
本研究では,光の時間(ToF)センサによって提供される強度・深度情報画像から3Dオブジェクトをローカライズする手法を提案する。
提案手法は,従来のCNNアーキテクチャと比較して,分割と局所化の精度を著しく向上する。
論文 参考訳(メタデータ) (2020-08-27T09:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。