論文の概要: X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction
- arxiv url: http://arxiv.org/abs/2309.08424v2
- Date: Sun, 24 Sep 2023 12:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 00:27:54.185852
- Title: X-PDNet: Accurate Joint Plane Instance Segmentation and Monocular Depth
Estimation with Cross-Task Distillation and Boundary Correction
- Title(参考訳): X-PDNet:クロスタスク蒸留と境界補正による高精度な関節面分割と単眼深度推定
- Authors: Cao Dinh Duc, Jongwoo Lim
- Abstract要約: X-PDNetは平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークである。
我々は、境界回帰損失を増大させるために、基底真理境界を用いることの現在の限界を強調した。
境界領域分割を支援するために深度情報を利用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 9.215384107659665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation of planar regions from a single RGB image is a particularly
important task in the perception of complex scenes. To utilize both visual and
geometric properties in images, recent approaches often formulate the problem
as a joint estimation of planar instances and dense depth through feature
fusion mechanisms and geometric constraint losses. Despite promising results,
these methods do not consider cross-task feature distillation and perform
poorly in boundary regions. To overcome these limitations, we propose X-PDNet,
a framework for the multitask learning of plane instance segmentation and depth
estimation with improvements in the following two aspects. Firstly, we
construct the cross-task distillation design which promotes early information
sharing between dual-tasks for specific task improvements. Secondly, we
highlight the current limitations of using the ground truth boundary to develop
boundary regression loss, and propose a novel method that exploits depth
information to support precise boundary region segmentation. Finally, we
manually annotate more than 3000 images from Stanford 2D-3D-Semantics dataset
and make available for evaluation of plane instance segmentation. Through the
experiments, our proposed methods prove the advantages, outperforming the
baseline with large improvement margins in the quantitative results on the
ScanNet and the Stanford 2D-3D-S dataset, demonstrating the effectiveness of
our proposals.
- Abstract(参考訳): 単一のRGB画像からの平面領域の分割は、複雑なシーンの知覚において特に重要な課題である。
画像の視覚的特性と幾何学的性質の両方を利用するため、近年の手法では、特徴融合機構と幾何学的制約損失による平面インスタンスと密集深度の同時推定として問題を定式化することが多い。
有望な結果にもかかわらず、これらの方法はクロスタスク機能蒸留を考慮せず、境界領域において性能が低下する。
これらの制約を克服するために,平面インスタンス分割と深さ推定のマルチタスク学習のためのフレームワークであるX-PDNetを提案する。
まず,タスク改善のために,両タスク間の早期情報共有を促進するクロスタスク蒸留設計を構築する。
第2に,境界回帰損失を増大させるために基底真理境界を用いる場合の現在の限界を強調し,正確な境界領域セグメンテーションを支援するために深度情報を利用する新しい手法を提案する。
最後に,Stanford 2D-3D-Semanticsデータセットから3000枚以上の画像を手動でアノテートし,平面インスタンスのセグメンテーションを評価する。
提案手法は,ScanNetとStanford 2D-3D-Sデータセットの定量化結果において,改良率の大きなベースラインを上回り,提案手法の有効性を実証する。
関連論文リスト
- 360 Layout Estimation via Orthogonal Planes Disentanglement and
Multi-view Geometric Consistency Perception [60.23832277827669]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元する傾向がある。
水平深度と比表現に適した教師なし適応手法を提案する。
また,決定レベルのレイアウト解析のための最適化手法と,特徴レベルのマルチビューアグリゲーションのための1次元コストボリューム構築手法も導入する。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - InverseForm: A Loss Function for Structured Boundary-Aware Segmentation [80.39674800972182]
逆変換ネットワークを用いたセマンティックセグメンテーションのための新しい境界認識損失項を提案する。
このプラグイン損失項は境界変換の捕捉におけるクロスエントロピー損失を補完する。
室内および屋外のセグメンテーションベンチマークにおける損失関数の定量的および定性的効果を解析した。
論文 参考訳(メタデータ) (2021-04-06T18:52:45Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Improving Monocular Depth Estimation by Leveraging Structural Awareness
and Complementary Datasets [21.703238902823937]
視覚特徴の空間的関係を利用するために,空間的注意ブロックを有する構造認識ニューラルネットワークを提案する。
第2に,一様点対に対する大域的局所的相対損失を導入し,予測における空間的制約を増大させる。
第3に、先行手法の障害事例の分析に基づいて、挑戦シーンの新たなHard Case (HC) Depthデータセットを収集します。
論文 参考訳(メタデータ) (2020-07-22T08:21:02Z) - Scan-based Semantic Segmentation of LiDAR Point Clouds: An Experimental
Study [2.6205925938720833]
最先端の手法では、深いニューラルネットワークを使用して、LiDARスキャンの各点のセマンティッククラスを予測する。
LiDAR測定を処理するための強力で効率的な方法は、2次元の画像のような投影を使うことである。
メモリの制約だけでなく、パフォーマンスの向上やランタイムの改善など、さまざまなテクニックを実証する。
論文 参考訳(メタデータ) (2020-04-06T11:08:12Z) - Refined Plane Segmentation for Cuboid-Shaped Objects by Leveraging Edge
Detection [63.942632088208505]
本稿では,セグメント化された平面マスクを画像に検出されたエッジと整列するための後処理アルゴリズムを提案する。
これにより、立方体形状の物体に制限を加えながら、最先端のアプローチの精度を高めることができます。
論文 参考訳(メタデータ) (2020-03-28T18:51:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。