論文の概要: Lightweight integration of 3D features to improve 2D image segmentation
- arxiv url: http://arxiv.org/abs/2212.08334v1
- Date: Fri, 16 Dec 2022 08:22:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:30:09.347230
- Title: Lightweight integration of 3D features to improve 2D image segmentation
- Title(参考訳): 2次元画像のセグメンテーションを改善するための3d機能の軽量統合
- Authors: Olivier Pradelle and Raphaelle Chaine and David Wendland and Julie
Digne
- Abstract要約: 画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,より軽量な入力データセットによる最先端性能を示す。
- 参考スコア(独自算出の注目度): 1.3799488979862027
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scene understanding is a major challenge of today's computer vision. Center
to this task is image segmentation, since scenes are often provided as a set of
pictures. Nowadays, many such datasets also provide 3D geometry information
given as a 3D point cloud acquired by a laser scanner or a depth camera. To
exploit this geometric information, many current approaches rely on both a 2D
loss and 3D loss, requiring not only 2D per pixel labels but also 3D per point
labels. However obtaining a 3D groundtruth is challenging, time-consuming and
error-prone. In this paper, we show that image segmentation can benefit from 3D
geometric information without requiring any 3D groundtruth, by training the
geometric feature extraction with a 2D segmentation loss in an end-to-end
fashion. Our method starts by extracting a map of 3D features directly from the
point cloud by using a lightweight and simple 3D encoder neural network. The 3D
feature map is then used as an additional input to a classical image
segmentation network. During training, the 3D features extraction is optimized
for the segmentation task by back-propagation through the entire pipeline. Our
method exhibits state-of-the-art performance with much lighter input dataset
requirements, since no 3D groundtruth is required.
- Abstract(参考訳): シーン理解は、今日のコンピュータビジョンの大きな課題である。
このタスクの中心はイメージセグメンテーションであり、シーンは画像のセットとして提供されることが多い。
今日では、レーザースキャナーや深度カメラによって取得された3Dポイントクラウドとして与えられる3Dジオメトリ情報も提供している。
この幾何学的情報を活用するために、現在の多くのアプローチは2Dの損失と3Dの損失の両方に依存しており、ピクセル毎のラベルだけでなく、ポイント毎のラベルも必要である。
しかし、3Dの基盤となることは難しく、時間がかかり、エラーが発生しやすい。
本稿では,2次元セグメンテーション損失による幾何学的特徴抽出をエンド・ツー・エンドの方法で訓練することにより,3次元の幾何学的情報から画像セグメンテーションの恩恵を受けることを示す。
提案手法は,軽量でシンプルな3dエンコーダニューラルネットワークを用いて,ポイントクラウドから直接3d特徴のマップを抽出することから始まる。
3d特徴マップは、古典的な画像セグメンテーションネットワークへの追加入力として使用される。
トレーニング中、3d特徴抽出はパイプライン全体のバックプロパゲーションによってセグメンテーションタスクに最適化される。
提案手法は,3次元基底構造を必要としないため,より軽量な入力データセットを必要とする技術性能を示す。
関連論文リスト
- SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。