論文の概要: SAD: Segment Any RGBD
- arxiv url: http://arxiv.org/abs/2305.14207v1
- Date: Tue, 23 May 2023 16:26:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:53:50.952601
- Title: SAD: Segment Any RGBD
- Title(参考訳): SAD: RGBDのセグメンテーション
- Authors: Jun Cen, Yizheng Wu, Kewei Wang, Xingyi Li, Jingkang Yang, Yixuan Pei,
Lingdong Kong, Ziwei Liu, Qifeng Chen
- Abstract要約: Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。
本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
- 参考スコア(独自算出の注目度): 54.24917975958583
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Segment Anything Model (SAM) has demonstrated its effectiveness in
segmenting any part of 2D RGB images. However, SAM exhibits a stronger emphasis
on texture information while paying less attention to geometry information when
segmenting RGB images. To address this limitation, we propose the Segment Any
RGBD (SAD) model, which is specifically designed to extract geometry
information directly from images. Inspired by the natural ability of humans to
identify objects through the visualization of depth maps, SAD utilizes SAM to
segment the rendered depth map, thus providing cues with enhanced geometry
information and mitigating the issue of over-segmentation. We further include
the open-vocabulary semantic segmentation in our framework, so that the 3D
panoptic segmentation is fulfilled. The project is available on
https://github.com/Jun-CEN/SegmentAnyRGBD.
- Abstract(参考訳): Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を示した。
しかし、サムはrgb画像のセグメンテーション時に幾何情報にあまり注意を払わず、テクスチャ情報に重点を置いている。
この制限に対処するために,画像から直接幾何情報を抽出するために特別に設計されたsegment any rgbd (sad)モデルを提案する。
深度マップの可視化を通して、人間が物体を識別する自然の能力に触発されて、SADはSAMを使用して描画された深度マップを分割し、拡張された幾何情報と過剰なセグメンテーションの問題を緩和する手がかりを提供する。
さらに、我々のフレームワークには、オープンボキャブラリーセマンティクスセグメンテーション(open-vocabulary semantic segmentation)が含まれており、3d panopticセグメンテーションが実現する。
このプロジェクトはhttps://github.com/Jun-CEN/SegmentAnyRGBDで入手できる。
関連論文リスト
- Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。
本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。
この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文 参考訳(メタデータ) (2024-08-17T04:55:03Z) - MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis [27.703204488877038]
MeshSegmenterは、ゼロショット3Dセマンティックセグメンテーション用に設計されたフレームワークである。
さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを提供する。
論文 参考訳(メタデータ) (2024-07-18T16:50:59Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。
OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。
本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文 参考訳(メタデータ) (2023-08-14T07:12:31Z) - TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。
SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。
これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文 参考訳(メタデータ) (2023-06-14T16:13:27Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - Panoptic 3D Scene Reconstruction From a Single RGB Image [24.960786016915105]
単一の画像から3Dシーンを理解することは、ロボット工学、モーションプランニング、拡張現実など、幅広いタスクの基本である。
2次元パノプティカルセグメンテーションに着想を得て,幾何学的再構成,3次元セマンティックセグメンテーション,および3次元インスタンスセグメンテーションのタスクをパノプティカル3Dシーンコンストラクションのタスクに統合することを提案する。
共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。
論文 参考訳(メタデータ) (2021-11-03T18:06:38Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。