論文の概要: HoHoNet: 360 Indoor Holistic Understanding with Latent Horizontal
Features
- arxiv url: http://arxiv.org/abs/2011.11498v3
- Date: Thu, 9 Sep 2021 10:31:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 02:30:32.484992
- Title: HoHoNet: 360 Indoor Holistic Understanding with Latent Horizontal
Features
- Title(参考訳): hohonet:潜伏水平特徴を用いた360度室内総合理解
- Authors: Cheng Sun, Min Sun, Hwann-Tzong Chen
- Abstract要約: HoHoNetは、LHFeat(Latent Horizontal Feature)を用いた屋内360度パノラマの総合的理解のための汎用的で効率的なフレームワークである
52 FPSと110 FPSでそれぞれResNet-50とResNet-34のバックボーンで動作し、高解像度の512×1024$パノラマから高密度のモダリティをモデリングする。
レイアウト推定とセマンティックセグメンテーションのタスクでは、HoHoNetは現在の最先端技術と同等の結果を得る。
- 参考スコア(独自算出の注目度): 45.73555850169867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present HoHoNet, a versatile and efficient framework for holistic
understanding of an indoor 360-degree panorama using a Latent Horizontal
Feature (LHFeat). The compact LHFeat flattens the features along the vertical
direction and has shown success in modeling per-column modality for room layout
reconstruction. HoHoNet advances in two important aspects. First, the deep
architecture is redesigned to run faster with improved accuracy. Second, we
propose a novel horizon-to-dense module, which relaxes the per-column output
shape constraint, allowing per-pixel dense prediction from LHFeat. HoHoNet is
fast: It runs at 52 FPS and 110 FPS with ResNet-50 and ResNet-34 backbones
respectively, for modeling dense modalities from a high-resolution $512 \times
1024$ panorama. HoHoNet is also accurate. On the tasks of layout estimation and
semantic segmentation, HoHoNet achieves results on par with current
state-of-the-art. On dense depth estimation, HoHoNet outperforms all the prior
arts by a large margin.
- Abstract(参考訳): 本稿では,LHFeat(Latent Horizontal Feature)を用いた室内360度パノラマの総合的理解のための汎用的で効率的なフレームワークHoHoNetを提案する。
コンパクトなLHFeatは垂直方向に沿って特徴を平坦化し、部屋のレイアウト再構築のためのカラムごとのモダリティのモデル化に成功している。
HoHoNetは2つの重要な側面で前進している。
まず、ディープアーキテクチャはより高速に動作できるように設計されている。
第2に,LHFeatから画素ごとの高密度な予測を可能にする,カラムごとの出力形状制約を緩和する新しい水平-高密度モジュールを提案する。
HoHoNetは高速で、52 FPSと110 FPSでそれぞれResNet-50とResNet-34のバックボーンで動作し、高解像度の512 \times 1024$ Panoramaから高密度のモダリティをモデリングする。
HoHoNetも正確だ。
レイアウト推定とセマンティックセグメンテーションのタスクでは、HoHoNetは現在の最先端技術と同等の結果を得る。
深度推定では、HoHoNetはすべての先行芸術を大きなマージンで上回っている。
関連論文リスト
- X-HRNet: Towards Lightweight Human Pose Estimation with Spatially
Unidimensional Self-Attention [63.64944381130373]
特に, 主ポーズ推定法は, 2次元単一ピークヒートマップを用いて人間の関節を推定する。
本稿では,空間的一次元自己認識(SUSA)という軽量で強力な代替手段を,ポイントワイズ(1×1)の畳み込みに導入する。
我々のSUSAは、ポイントワイド(1x1)畳み込みの計算複雑性を、精度を犠牲にすることなく96%削減する。
論文 参考訳(メタデータ) (2023-10-12T05:33:25Z) - You Only Segment Once: Towards Real-Time Panoptic Segmentation [68.91492389185744]
YOSOはリアルタイムのパン光学セグメンテーションフレームワークである。
YOSOは、パン光学カーネルと画像特徴マップの間の動的畳み込みを通じてマスクを予測する。
YOSOは、COCOで46.4 PQ、45.6 FPS、都市景観で52.5 PQ、22.6 FPS、ADE20Kで38.0 PQ、35.4 FPSを達成している。
論文 参考訳(メタデータ) (2023-03-26T07:55:35Z) - EHSNet: End-to-End Holistic Learning Network for Large-Size Remote
Sensing Image Semantic Segmentation [9.704776038367262]
本稿では,大規模リモートセンシング画像セマンティックセマンティックセマンティックセマンティクス(LRISS)の総合学習を目的とした,新しいエンドツーエンドセマンティクスネットワークであるEHSNetを提案する。
EHSNetは、LRIの特徴を利用するための3つのメモリフレンドリなモジュール、長距離空間コンテキストを開発するための長距離依存モジュール、全体的コンテキスト関係を構築するための効率的な相互相関モジュール、完全なオブジェクト境界を保存するための境界認識拡張モジュールである。
より良くするために、EHSNetはFBPと+4で+5.65 mIoUの差で従来の最先端のライバルより優れていた。
論文 参考訳(メタデータ) (2022-11-21T10:00:59Z) - Global Hierarchical Attention for 3D Point Cloud Analysis [88.56041763189162]
我々は,GHA(Global Hierarchical Attention)と呼ばれる3Dポイントクラウド解析のための新しい注意機構を提案する。
セマンティックセグメンテーションのタスクでは、GHAはScanNet上のMinkowskiEngineベースラインに+1.7%のmIoU増加を与える。
3Dオブジェクト検出タスクでは、GHAはnuScenesデータセット上でCenterPointベースラインを+0.5%mAP改善する。
論文 参考訳(メタデータ) (2022-08-07T19:16:30Z) - Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation [35.765304656180355]
エッジ上でのリアルタイム多人数ポーズ推定のための効率的なアーキテクチャ設計について検討する。
この発見に触発されて、ポーズ推定のための効率的な単一ブランチアーキテクチャLitePoseを設計した。
本稿では,Fusion Deconv Head や Large Kernel Convs など,LitePose のキャパシティ向上のための2つの簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-03T02:08:04Z) - 360MonoDepth: High-Resolution 360{\deg} Monocular Depth Estimation [15.65828728205071]
360degデータでは 単分子深度推定は 依然として課題です
現在のCNNベースのメソッドは、GPUメモリが限られているため、そのような高解像度をサポートしない。
タンジェント画像を用いた高解像度360deg画像からの単眼深度推定のためのフレキシブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-30T18:57:29Z) - LED2-Net: Monocular 360 Layout Estimation via Differentiable Depth
Rendering [59.63979143021241]
パノラマの地平線上での深度予測問題として360度レイアウト推定のタスクを定式化する。
レイアウトから深度予測への変換を区別できるように、差分可能な深度レンダリング手順を提案します。
提案手法は,360 レイアウトのベンチマークデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T15:48:41Z) - GSNet: Joint Vehicle Pose and Shape Reconstruction with Geometrical and
Scene-aware Supervision [65.13980934546957]
GSNet(Geometric and Scene-aware Network)と名付けられた新しいエンドツーエンドフレームワークを提案する。
共同で6DoFのポーズを推定し、都会のストリートビューから詳細な3Dカー形状を再構築する。
我々は,最大マルチタスクApolloCar3Dベンチマーク上でGSNetを評価し,定量的かつ定性的に最先端の性能を達成する。
論文 参考訳(メタデータ) (2020-07-26T13:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。