Fugu-MT 論文翻訳(概要): SAD: Segment Any RGBD

論文の概要: SAD: Segment Any RGBD

arxiv url: http://arxiv.org/abs/2305.14207v1
Date: Tue, 23 May 2023 16:26:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 14:53:50.952601
Title: SAD: Segment Any RGBD
Title（参考訳）: SAD: RGBDのセグメンテーション
Authors: Jun Cen, Yizheng Wu, Kewei Wang, Xingyi Li, Jingkang Yang, Yixuan Pei, Lingdong Kong, Ziwei Liu, Qifeng Chen
Abstract要約: Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
参考スコア（独自算出の注目度）: 54.24917975958583
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The Segment Anything Model (SAM) has demonstrated its effectiveness in segmenting any part of 2D RGB images. However, SAM exhibits a stronger emphasis on texture information while paying less attention to geometry information when segmenting RGB images. To address this limitation, we propose the Segment Any RGBD (SAD) model, which is specifically designed to extract geometry information directly from images. Inspired by the natural ability of humans to identify objects through the visualization of depth maps, SAD utilizes SAM to segment the rendered depth map, thus providing cues with enhanced geometry information and mitigating the issue of over-segmentation. We further include the open-vocabulary semantic segmentation in our framework, so that the 3D panoptic segmentation is fulfilled. The project is available on https://github.com/Jun-CEN/SegmentAnyRGBD.
Abstract（参考訳）: Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を示した。しかし、サムはrgb画像のセグメンテーション時に幾何情報にあまり注意を払わず、テクスチャ情報に重点を置いている。この制限に対処するために,画像から直接幾何情報を抽出するために特別に設計されたsegment any rgbd (sad)モデルを提案する。深度マップの可視化を通して、人間が物体を識別する自然の能力に触発されて、SADはSAMを使用して描画された深度マップを分割し、拡張された幾何情報と過剰なセグメンテーションの問題を緩和する手がかりを提供する。さらに、我々のフレームワークには、オープンボキャブラリーセマンティクスセグメンテーション(open-vocabulary semantic segmentation)が含まれており、3d panopticセグメンテーションが実現する。このプロジェクトはhttps://github.com/Jun-CEN/SegmentAnyRGBDで入手できる。

関連論文リスト

RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory [34.406308400305385]
RGB-D (RGB-D) Video Object (VOS) は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合することを目的としている。本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOSを提案する。本稿では,最新のRGB-D VOSベンチマークにおいて,提案手法の最先端性能を示す。
論文参考訳（メタデータ） (2025-04-23T07:31:37Z)
DFormerv2: Geometry Self-Attention for RGBD Semantic Segmentation [66.7989548848166]
既存のアプローチでは、深度マップとRGBイメージをエンコードし、それらの間に特徴融合を行い、より堅牢な予測を可能にする。我々はDFormerv2という強力なRGBDエンコーダを提案し、ニューラルネットワークで深度情報をエンコードするのではなく、深度マップを幾何先行として明示的に利用する。我々のゴールは、すべての画像パッチトークンの深さと空間距離から幾何学的手がかりを抽出し、それを用いて、自己注意における注意重みを割り当てることである。
論文参考訳（メタデータ） (2025-04-07T03:06:07Z)
3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文参考訳（メタデータ） (2024-12-05T15:27:58Z)
Depth-guided Texture Diffusion for Image Semantic Segmentation [47.46257473475867]
本稿では,この課題を効果的に解決するディープスガイド型テクスチャ拡散手法を提案する。本手法は,テクスチャ画像を作成するために,エッジやテクスチャから低レベル特徴を抽出する。この拡張深度マップを元のRGB画像と結合した特徴埋め込みに統合することにより,深度マップと画像との相違を効果的に橋渡しする。
論文参考訳（メタデータ） (2024-08-17T04:55:03Z)
MeshSegmenter: Zero-Shot Mesh Semantic Segmentation via Texture Synthesis [27.703204488877038]
MeshSegmenterは、ゼロショット3Dセマンティックセグメンテーション用に設計されたフレームワークである。さまざまなメッシュとセグメント記述の正確な3Dセグメンテーションを提供する。
論文参考訳（メタデータ） (2024-07-18T16:50:59Z)
View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文参考訳（メタデータ） (2024-05-30T04:14:58Z)
Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文参考訳（メタデータ） (2024-05-27T07:10:21Z)
A One Stop 3D Target Reconstruction and multilevel Segmentation Method [0.0]
オープンソースのワンストップ3Dターゲット再構成とマルチレベルセグメンテーションフレームワーク(OSTRA)を提案する。 OSTRAは2D画像上でセグメンテーションを行い、画像シーケンス内のセグメンテーションラベルで複数のインスタンスを追跡し、ラベル付き3Dオブジェクトまたは複数のパーツをMulti-View Stereo(MVS)またはRGBDベースの3D再構成手法で再構成する。本手法は,複雑なシーンにおいて,リッチなマルチスケールセグメンテーション情報に埋め込まれた3次元ターゲットを再構築するための新たな道を開く。
論文参考訳（メタデータ） (2023-08-14T07:12:31Z)
TomoSAM: a 3D Slicer extension using SAM for tomography segmentation [62.997667081978825]
TomoSAMは、最先端のSegment Anything Model(SAM)を3Dスライダに統合するために開発された。 SAMは、オブジェクトを識別し、ゼロショットで画像マスクを作成することができる、迅速なディープラーニングモデルである。これらのツール間のシナジーは、トモグラフィや他のイメージング技術からの複雑な3Dデータセットのセグメンテーションに役立つ。
論文参考訳（メタデータ） (2023-06-14T16:13:27Z)
3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文参考訳（メタデータ） (2021-12-18T11:12:38Z)
Panoptic 3D Scene Reconstruction From a Single RGB Image [24.960786016915105]
単一の画像から3Dシーンを理解することは、ロボット工学、モーションプランニング、拡張現実など、幅広いタスクの基本である。 2次元パノプティカルセグメンテーションに着想を得て,幾何学的再構成,3次元セマンティックセグメンテーション,および3次元インスタンスセグメンテーションのタスクをパノプティカル3Dシーンコンストラクションのタスクに統合することを提案する。共同シーンの再構築,セマンティック,インスタンスセグメンテーションのこの全体的視点は,タスクを個別に扱うよりも有益であることを示す。
論文参考訳（メタデータ） (2021-11-03T18:06:38Z)
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文参考訳（メタデータ） (2021-03-14T11:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。