論文の概要: Long Range Pooling for 3D Large-Scale Scene Understanding
- arxiv url: http://arxiv.org/abs/2301.06962v1
- Date: Tue, 17 Jan 2023 15:36:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 13:42:07.636699
- Title: Long Range Pooling for 3D Large-Scale Scene Understanding
- Title(参考訳): 3次元大規模シーン理解のための長距離プール
- Authors: Xiang-Li Li, Meng-Hao Guo, Tai-Jiang Mu, Ralph R. Martin, Shi-Min Hu
- Abstract要約: 我々は,3次元大規模シーン理解において重要な2つの要因を主張する。
本稿では,拡張最大プーリングを用いたLRP(Long Range pooling)モジュールを提案する。
LRPに基づいて,3次元理解のためのネットワークアーキテクチャであるLRPNetを提案する。
- 参考スコア(独自算出の注目度): 36.615977377193325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the success of recent vision transformers and large kernel design
in convolutional neural networks (CNNs), in this paper, we analyze and explore
essential reasons for their success. We claim two factors that are critical for
3D large-scale scene understanding: a larger receptive field and operations
with greater non-linearity. The former is responsible for providing long range
contexts and the latter can enhance the capacity of the network. To achieve the
above properties, we propose a simple yet effective long range pooling (LRP)
module using dilation max pooling, which provides a network with a large
adaptive receptive field. LRP has few parameters, and can be readily added to
current CNNs. Also, based on LRP, we present an entire network architecture,
LRPNet, for 3D understanding. Ablation studies are presented to support our
claims, and show that the LRP module achieves better results than large kernel
convolution yet with reduced computation, due to its nonlinearity. We also
demonstrate the superiority of LRPNet on various benchmarks: LRPNet performs
the best on ScanNet and surpasses other CNN-based methods on S3DIS and
Matterport3D. Code will be made publicly available.
- Abstract(参考訳): 本稿では,最近の視覚トランスフォーマーの成功と畳み込みニューラルネットワーク(cnns)における大規模カーネル設計に触発されて,その成功の本質的理由を分析し,考察する。
3次元の大規模シーン理解に不可欠である2つの要因を主張する: より大きな受容場と、より高い非線形性を持つ操作である。
前者は長距離のコンテキストを提供する責任があり、後者はネットワークのキャパシティを高めることができる。
以上の特性を実現するために,拡張最大プーリングを用いた簡易かつ効果的なLRPモジュールを提案する。
LRPにはパラメータがほとんどなく、現在のCNNに簡単に追加できる。
また、LRPに基づいて、ネットワークアーキテクチャ全体であるLRPNetを3次元理解のために提示する。
我々の主張を裏付けるアブレーション研究を行い、LRPモジュールはその非線形性のため計算量を減らすことなく大きなカーネルの畳み込みよりも優れた結果が得られることを示した。
LRPNetはScanNet上で最高の性能を発揮し、S3DISやMatterport3D上の他のCNNベースのメソッドを上回ります。
コードは公開される予定だ。
関連論文リスト
- DCNv3: Towards Next Generation Deep Cross Network for CTR Prediction [17.19859591493946]
本稿では,次世代のディープクロスネットワークであるディープクロスネットワークv3(DCNv3)と,CTR予測のための2つのサブネットワークであるリニアクロスネットワーク(LCN)と指数クロスネットワーク(ECN)を提案する。
6つのデータセットに関する総合的な実験は、DCNv3の有効性、効率、解釈可能性を示している。
論文 参考訳(メタデータ) (2024-07-18T09:49:13Z) - Active search and coverage using point-cloud reinforcement learning [50.741409008225766]
本稿では,目的探索とカバレッジのためのエンドツーエンドの深層強化学習ソリューションを提案する。
RLの深い階層的特徴学習は有効であり、FPS(Fastthest Point sample)を用いることで点数を削減できることを示す。
また、ポイントクラウドに対するマルチヘッドの注意がエージェントの学習を高速化する上で有効であるが、同じ結果に収束することを示す。
論文 参考訳(メタデータ) (2023-12-18T18:16:30Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - A Theoretical View on Sparsely Activated Networks [21.156069843782017]
本稿では、一般的なアーキテクチャの健全な側面を捉えるデータ依存スパースネットワークの形式モデルを提案する。
次に、LSH(Locality sensitive hashing)に基づくルーティング関数を導入し、スパースネットワークがターゲット関数をどの程度うまく近似するかを判断する。
スパースネットワークはリプシッツ関数上の高密度ネットワークの近似力と一致することが証明できる。
論文 参考訳(メタデータ) (2022-08-08T23:14:48Z) - Lightweight and Progressively-Scalable Networks for Semantic
Segmentation [100.63114424262234]
マルチスケール学習フレームワークは,セマンティックセグメンテーションを向上する有効なモデルのクラスと見なされてきた。
本稿では,畳み込みブロックの設計と,複数スケールにわたる相互作用の仕方について,徹底的に解析する。
我々は,軽量で拡張性の高いネットワーク(LPS-Net)を考案した。
論文 参考訳(メタデータ) (2022-07-27T16:00:28Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Fully Dynamic Inference with Deep Neural Networks [19.833242253397206]
Layer-Net(L-Net)とChannel-Net(C-Net)と呼ばれる2つのコンパクトネットワークは、どのレイヤやフィルタ/チャネルが冗長であるかをインスタンス毎に予測する。
CIFAR-10データセットでは、LC-Netは11.9$times$ less floating-point Operations (FLOPs) となり、他の動的推論手法と比較して最大3.3%精度が向上する。
ImageNetデータセットでは、LC-Netは最大1.4$times$ FLOPsを減らし、Top-1の精度は他の方法よりも4.6%高い。
論文 参考訳(メタデータ) (2020-07-29T23:17:48Z) - Deep Polynomial Neural Networks [77.70761658507507]
$Pi$Netsは拡張に基づいた関数近似の新しいクラスである。
$Pi$Netsは、画像生成、顔検証、および3Dメッシュ表現学習という3つの困難なタスクで、最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-06-20T16:23:32Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。