論文の概要: Finding Your (3D) Center: 3D Object Detection Using a Learned Loss
- arxiv url: http://arxiv.org/abs/2004.02693v2
- Date: Wed, 22 Jul 2020 17:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 07:05:17.261574
- Title: Finding Your (3D) Center: 3D Object Detection Using a Learned Loss
- Title(参考訳): 3D)センターを見つける:学習した損失を用いた3Dオブジェクト検出
- Authors: David Griffiths, Jan Boehm, Tobias Ritschel
- Abstract要約: 3Dシーンは、都市レベルのスケールでレンジスキャナーによって取得できるが、セマンティックラベルでははるかに少ない。
オブジェクトラベルの5%をわずかに使用しながら、生の3Dスキャンによる3D検出のトレーニングを可能にする新しい最適化手法を提案する。
評価では, 同等の監督において, より低い監督レベルで, より高い品質で競争力を示す。
- 参考スコア(独自算出の注目度): 18.821576211135188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive semantically labeled datasets are readily available for 2D images,
however, are much harder to achieve for 3D scenes. Objects in 3D repositories
like ShapeNet are labeled, but regrettably only in isolation, so without
context. 3D scenes can be acquired by range scanners on city-level scale, but
much fewer with semantic labels. Addressing this disparity, we introduce a new
optimization procedure, which allows training for 3D detection with raw 3D
scans while using as little as 5% of the object labels and still achieve
comparable performance. Our optimization uses two networks. A scene network
maps an entire 3D scene to a set of 3D object centers. As we assume the scene
not to be labeled by centers, no classic loss, such as Chamfer can be used to
train it. Instead, we use another network to emulate the loss. This loss
network is trained on a small labeled subset and maps a non centered 3D object
in the presence of distractions to its own center. This function is very
similar - and hence can be used instead of - the gradient the supervised loss
would provide. Our evaluation documents competitive fidelity at a much lower
level of supervision, respectively higher quality at comparable supervision.
Supplementary material can be found at: https://dgriffiths3.github.io.
- Abstract(参考訳): 大量のセマンティックラベル付きデータセットは2D画像で容易に利用できるが、3Dシーンでは達成が困難である。
ShapeNetのような3Dレポジトリのオブジェクトはラベル付けされているが、残念なことに分離されているだけであり、コンテキストがない。
3dシーンは、都市規模のレンジスキャナーによって取得できるが、セマンティックラベルではずっと少ない。
そこで本研究では,物体ラベルの5%に留まりながら,生の3dスキャンによる3d検出のトレーニングを可能にする新しい最適化手法を提案する。
最適化には2つのネットワークを使用します。
シーンネットワークは、3Dシーン全体を3Dオブジェクトセンターのセットにマッピングする。
シーンがセンターによってラベル付けされないと仮定するので、チャンファーのような古典的な損失は使用できない。
代わりに、損失をエミュレートするために別のネットワークを使用します。
この損失ネットワークは小さなラベル付きサブセットでトレーニングされ、無中心の3Dオブジェクトを自身の中心に注意を払ってマッピングする。
この関数は、非常によく似ており、従って、監督された損失がもたらす勾配に代えて使用できる。
評価では, 同等の監督において, より低い監督レベルで, 高い品質で競争力を示す。
補足資料は、https://dgriffiths3.github.ioで見ることができる。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Bayesian Self-Training for Semi-Supervised 3D Segmentation [59.544558398992386]
3Dセグメンテーションはコンピュータビジョンの中核的な問題である。
完全に教師されたトレーニングを採用するために、3Dポイントクラウドを密にラベル付けすることは、労働集約的で高価です。
半教師付きトレーニングは、ラベル付きデータの小さなセットのみを付与し、より大きなラベル付きデータセットを伴って、より実用的な代替手段を提供する。
論文 参考訳(メタデータ) (2024-09-12T14:54:31Z) - Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。
具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。
第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。
第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文 参考訳(メタデータ) (2023-12-12T18:57:25Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z) - Weakly Supervised Volumetric Image Segmentation with Deformed Templates [80.04326168716493]
対象対象物の表面にスパースな3次元点のセットのみを提供する必要があるという意味で、真に弱い教師付きアプローチを提案する。
監督コストの削減により、3Dの弱スーパービジョンに対する従来のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T22:09:34Z) - SAT: 2D Semantics Assisted Training for 3D Visual Grounding [95.84637054325039]
3Dビジュアルグラウンドイングは、通常3Dポイント雲の形で表現される3Dシーンに関する自然言語記述を、対象とする対象領域に基盤付けることを目的としている。
ポイントクラウドはスパースでノイズがあり、2D画像と比較してセマンティック情報が限られている。
本研究では,2次元画像セマンティクスを利用した2次元セマンティクス支援訓練(SAT)を提案する。
論文 参考訳(メタデータ) (2021-05-24T17:58:36Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Weakly Supervised 3D Object Detection from Point Clouds [27.70180601788613]
3Dオブジェクト検出は、特定のクラスに属するオブジェクトの3D境界ボックスを検出し、ローカライズすることを目的としている。
既存の3Dオブジェクト検出器は、トレーニング中にアノテーション付き3Dバウンディングボックスに依存している。
基礎となる真理3D境界ボックスを使わずに点雲からの3Dオブジェクト検出を弱教師付きで行うためのフレームワークであるVS3Dを提案する。
論文 参考訳(メタデータ) (2020-07-28T03:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。