論文の概要: Lightweight integration of 3D features to improve 2D image segmentation
- arxiv url: http://arxiv.org/abs/2212.08334v2
- Date: Mon, 10 Jul 2023 08:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:05:50.132453
- Title: Lightweight integration of 3D features to improve 2D image segmentation
- Title(参考訳): 2次元画像のセグメンテーションを改善するための3d機能の軽量統合
- Authors: Olivier Pradelle and Raphaelle Chaine and David Wendland and Julie
Digne
- Abstract要約: 画像のセグメンテーションは3次元の基底構造を必要とせずに3次元の幾何学的情報から恩恵を受けることができることを示す。
提案手法は,多くの2次元セグメンテーションネットワークに適用でき,性能を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 1.3799488979862027
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Scene understanding has made tremendous progress over the past few years, as
data acquisition systems are now providing an increasing amount of data of
various modalities (point cloud, depth, RGB...). However, this improvement
comes at a large cost on computation resources and data annotation
requirements. To analyze geometric information and images jointly, many
approaches rely on both a 2D loss and 3D loss, requiring not only 2D per
pixel-labels but also 3D per-point labels. However, obtaining a 3D groundtruth
is challenging, time-consuming and error-prone. In this paper, we show that
image segmentation can benefit from 3D geometric information without requiring
a 3D groundtruth, by training the geometric feature extraction and the 2D
segmentation network jointly, in an end-to-end fashion, using only the 2D
segmentation loss. Our method starts by extracting a map of 3D features
directly from a provided point cloud by using a lightweight 3D neural network.
The 3D feature map, merged with the RGB image, is then used as an input to a
classical image segmentation network. Our method can be applied to many 2D
segmentation networks, improving significantly their performance with only a
marginal network weight increase and light input dataset requirements, since no
3D groundtruth is required.
- Abstract(参考訳): データ取得システムは現在、さまざまなモダリティ(ポイントクラウド、ディープ、RGB...)のデータ量を増やしています。
しかし、この改善は計算資源とデータアノテーションの要求に大きなコストがかかる。
幾何学的情報と画像を共同で解析するために、多くのアプローチは2Dの損失と3Dの損失の両方に依存しており、ピクセル単位のラベルだけでなく、ポイント毎のラベルも必要である。
しかし、3Dグラウンドトルースを得るのは難しく、時間がかかり、エラーが発生しやすい。
本稿では,2次元分割損失のみを用いて,幾何学的特徴抽出と2次元分割ネットワークを協調的に訓練することにより,3次元基底構造を必要とせずに画像分割が3次元幾何学的情報から恩恵を受けることを示す。
提案手法は,軽量な3dニューラルネットワークを用いて,提供点クラウドから直接3d特徴の地図を抽出することから始まる。
RGB画像とマージされた3D特徴マップは、古典的な画像分割ネットワークへの入力として使用される。
本手法は,多くの2次元セグメンテーションネットワークに適用可能であり,3次元基盤を必要としないため,ネットワークの軽量化と軽量入力データセットの要求だけで性能を大幅に向上できる。
関連論文リスト
- SAM-guided Graph Cut for 3D Instance Segmentation [63.797612618531346]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance
Fields [73.97131748433212]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic
Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。
任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。
本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文 参考訳(メタデータ) (2022-04-15T17:10:48Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Spatial Context-Aware Self-Attention Model For Multi-Organ Segmentation [18.76436457395804]
マルチ組織セグメンテーションは、医学画像解析におけるディープラーニングの最も成功した応用の1つである。
深部畳み込みニューラルネット(CNN)は,CT画像やMRI画像上で臨床応用画像のセグメンテーション性能を達成する上で非常に有望である。
本研究では,高分解能2次元畳み込みによりセグメンテーションを実現する3次元モデルと2次元モデルを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-12-16T21:39:53Z) - ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。
不規則な3D点雲を通常の2Dカラー画像に変換する。
多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文 参考訳(メタデータ) (2020-12-05T13:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。