論文の概要: VIBUS: Data-efficient 3D Scene Parsing with VIewpoint Bottleneck and
Uncertainty-Spectrum Modeling
- arxiv url: http://arxiv.org/abs/2210.11472v1
- Date: Thu, 20 Oct 2022 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:50:13.987791
- Title: VIBUS: Data-efficient 3D Scene Parsing with VIewpoint Bottleneck and
Uncertainty-Spectrum Modeling
- Title(参考訳): VIBUS:VIewpoint Bottleneckと不確かさスペクトラムモデリングを用いたデータ効率3次元シーン解析
- Authors: Beiwen Tian, Liyi Luo, Hao Zhao, Guyue Zhou
- Abstract要約: 3Dシーン解析モデルの訓練は、興味深い代替手段だ。
このタスクをデータ効率のよい3Dシーン解析と呼ぶ。
そこで本研究では,VIBUSという2段階の有効なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.0624279915507047
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, 3D scenes parsing with deep learning approaches has been a heating
topic. However, current methods with fully-supervised models require manually
annotated point-wise supervision which is extremely user-unfriendly and
time-consuming to obtain. As such, training 3D scene parsing models with sparse
supervision is an intriguing alternative. We term this task as data-efficient
3D scene parsing and propose an effective two-stage framework named VIBUS to
resolve it by exploiting the enormous unlabeled points. In the first stage, we
perform self-supervised representation learning on unlabeled points with the
proposed Viewpoint Bottleneck loss function. The loss function is derived from
an information bottleneck objective imposed on scenes under different
viewpoints, making the process of representation learning free of degradation
and sampling. In the second stage, pseudo labels are harvested from the sparse
labels based on uncertainty-spectrum modeling. By combining data-driven
uncertainty measures and 3D mesh spectrum measures (derived from normal
directions and geodesic distances), a robust local affinity metric is obtained.
Finite gamma/beta mixture models are used to decompose category-wise
distributions of these measures, leading to automatic selection of thresholds.
We evaluate VIBUS on the public benchmark ScanNet and achieve state-of-the-art
results on both validation set and online test server. Ablation studies show
that both Viewpoint Bottleneck and uncertainty-spectrum modeling bring
significant improvements. Codes and models are publicly available at
https://github.com/AIR-DISCOVER/VIBUS.
- Abstract(参考訳): 近年,ディープラーニングによる3Dシーン解析が熱的話題となっている。
しかし, 完全教師付きモデルでは, 手動で注釈付きポイントワイド・インスペクションが必要であり, ユーザフレンドリで時間を要する。
このように、3Dシーン解析モデルの訓練は、興味深い代替手段である。
我々はこのタスクを,データ効率の良い3dシーン解析と表現し,膨大なラベルのない点を活用し,vibusと呼ばれる効果的な2段階フレームワークを提案する。
第1段階では,提案する視点ボトルネック損失関数を用いてラベルなし点について自己教師あり表現学習を行う。
損失関数は、異なる視点下でシーンに課される情報ボトルネック目標から導出され、表現学習の過程が劣化やサンプリングを不要にする。
第2段階では、不確実スペクトルモデルに基づいてスパースラベルから擬似ラベルを抽出する。
データ駆動不確実性測度と3次元メッシュスペクトル測度(正規方向と測地線距離に由来する)を組み合わせることにより、ロバストな局所親和性計量が得られる。
有限ガンマ/ベータ混合モデルを用いてこれらの尺度のカテゴリワイド分布を分解し、しきい値の自動選択を行う。
我々は、パブリックベンチマークScanNet上でVIBUSを評価し、検証セットとオンラインテストサーバの両方で最先端の結果を得る。
アブレーション研究は、視点ボトルネックと不確実性スペクトルモデリングの両方が大きな改善をもたらすことを示した。
コードとモデルはhttps://github.com/AIR-DISCOVER/VIBUSで公開されている。
関連論文リスト
- Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - 3D Object Detection with a Self-supervised Lidar Scene Flow Backbone [10.341296683155973]
本稿では,下流3次元視覚タスクのための汎用クラウドバックボーンモデルを学習するために,自己指導型トレーニング戦略を提案する。
我々の主な貢献は、学習の流れと動きの表現を活用し、自己教師付きバックボーンと3D検出ヘッドを組み合わせることである。
KITTIとnuScenesベンチマークの実験により、提案した自己教師付き事前学習は3次元検出性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2022-05-02T07:53:29Z) - Pointly-supervised 3D Scene Parsing with Viewpoint Bottleneck [3.2790748006553643]
本稿では,ポイントワイズ・セマンティック・アノテーションが高価であることを考えると,極端にスパースなラベルを持つモデルを学ぶことの難しさに対処する。
本稿では,視点ボトルネックという自己監督型3次元表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-17T13:54:20Z) - Semi-supervised 3D Object Detection via Adaptive Pseudo-Labeling [18.209409027211404]
3次元物体検出はコンピュータビジョンにおいて重要な課題である。
既存のほとんどのメソッドでは、多くの高品質な3Dアノテーションが必要です。
本研究では,屋外3次元物体検出タスクのための擬似ラベルに基づく新しい半教師付きフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-15T02:58:43Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z) - 3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object
Detection [76.42897462051067]
3DIoUMatchは屋内および屋外の場面両方に適当3D目的の検出のための新しい半監視された方法です。
教師と教師の相互学習の枠組みを活用し,ラベル付けされていない列車の情報を擬似ラベルの形で伝達する。
本手法は,ScanNetとSUN-RGBDのベンチマークにおける最先端の手法を,全てのラベル比で有意差で継続的に改善する。
論文 参考訳(メタデータ) (2020-12-08T11:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。