論文の概要: Pri3D: Can 3D Priors Help 2D Representation Learning?
- arxiv url: http://arxiv.org/abs/2104.11225v1
- Date: Thu, 22 Apr 2021 17:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:49:57.944811
- Title: Pri3D: Can 3D Priors Help 2D Representation Learning?
- Title(参考訳): Pri3D: 3Dは2D表現学習に役立つか?
- Authors: Ji Hou, Saining Xie, Benjamin Graham, Angela Dai, Matthias Nie{\ss}ner
- Abstract要約: 近年の3次元知覚の進歩は、3次元空間の幾何学的構造を理解する上で顕著な進歩を示した。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
マルチビューRGB-Dデータに基づくネットワークプリトレーニングのためのビュー不変なジオメトリ認識表現の学習手法を提案する。
- 参考スコア(独自算出の注目度): 37.35721274841419
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D perception have shown impressive progress in
understanding geometric structures of 3Dshapes and even scenes. Inspired by
these advances in geometric understanding, we aim to imbue image-based
perception with representations learned under geometric constraints. We
introduce an approach to learn view-invariant,geometry-aware representations
for network pre-training, based on multi-view RGB-D data, that can then be
effectively transferred to downstream 2D tasks. We propose to employ
contrastive learning under both multi-view im-age constraints and
image-geometry constraints to encode3D priors into learned 2D representations.
This results not only in improvement over 2D-only representation learning on
the image-based tasks of semantic segmentation, instance segmentation, and
object detection on real-world in-door datasets, but moreover, provides
significant improvement in the low data regime. We show a significant
improvement of 6.0% on semantic segmentation on full data as well as 11.9% on
20% data against baselines on ScanNet.
- Abstract(参考訳): 3d知覚の最近の進歩は、3d形状やシーンの幾何学的構造を理解することの素晴らしい進歩を示している。
このような幾何学的理解の進歩に触発されて,画像に基づく知覚を幾何学的制約の下で学習した表現で表現することを目指す。
本稿では,マルチビューRGB-Dデータに基づいて,ネットワーク事前学習のためのビュー不変な幾何学的表現を学習する手法を提案する。
本稿では,マルチビュー・インエイジ制約と画像幾何制約を併用したコントラスト学習手法を提案する。
この結果は、セマンティックセグメンテーション、インスタンスセグメンテーション、実世界の屋内データセットにおけるオブジェクト検出といったイメージベースタスクにおける2次元のみの表現学習よりも改善されるだけでなく、低データ構造において大幅な改善をもたらす。
我々は,全データに対するセマンティックセグメンテーションの6.0%,ScanNet上のベースラインに対する20%データに対する11.9%を大幅に改善したことを示す。
関連論文リスト
- BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors [29.419069066603438]
本研究では,既存の大規模RGB-Dデータを活用するMask3Dを提案する。
我々は,Mask3Dが強力な2D ViTバックボーンに3D先行情報を埋め込むのに特に有効であることを実証した。
論文 参考訳(メタデータ) (2023-02-28T16:45:21Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Lightweight integration of 3D features to improve 2D image segmentation [1.3799488979862027]
画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T08:22:55Z) - GraphCSPN: Geometry-Aware Depth Completion via Dynamic GCNs [49.55919802779889]
本稿では,グラフ畳み込みに基づく空間伝搬ネットワーク(GraphCSPN)を提案する。
本研究では、幾何学的表現学習において、畳み込みニューラルネットワークとグラフニューラルネットワークを相補的に活用する。
提案手法は,数段の伝搬ステップのみを使用する場合と比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-19T17:56:03Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Self-Supervised Image Representation Learning with Geometric Set
Consistency [50.12720780102395]
本稿では,3次元幾何整合性に基づく自己教師付き画像表現学習法を提案する。
具体的には、画像ビュー内の特徴整合性を強化するために、コントラスト学習フレームワークに3次元幾何学的整合性を導入する。
論文 参考訳(メタデータ) (2022-03-29T08:57:33Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。