論文の概要: Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes
- arxiv url: http://arxiv.org/abs/2602.11660v1
- Date: Thu, 12 Feb 2026 07:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.693249
- Title: Clutt3R-Seg: Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes
- Title(参考訳): Clutt3R-Seg:Sparse-view 3D Instance Segmentation for Language-grounded Grasping in Cluttered Scenes
- Authors: Jeongho Noh, Tai Hyoung Rhee, Eunho Lee, Jeongyun Kim, Sunwoo Lee, Ayoung Kim,
- Abstract要約: クラッタ3R-セグ(Clutt3R-Seg)は,散らばったシーンにおける言語的グルーピングのための3Dインスタンスセグメンテーションパイプラインである。
私たちのキーとなるアイデアは、セマンティックキューの階層的なインスタンスツリーを導入することです。
Clutt3R-Segは、散らかった、スパースなシナリオにおいて、最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 8.432169261844232
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliable 3D instance segmentation is fundamental to language-grounded robotic manipulation. Its critical application lies in cluttered environments, where occlusions, limited viewpoints, and noisy masks degrade perception. To address these challenges, we present Clutt3R-Seg, a zero-shot pipeline for robust 3D instance segmentation for language-grounded grasping in cluttered scenes. Our key idea is to introduce a hierarchical instance tree of semantic cues. Unlike prior approaches that attempt to refine noisy masks, our method leverages them as informative cues: through cross-view grouping and conditional substitution, the tree suppresses over- and under-segmentation, yielding view-consistent masks and robust 3D instances. Each instance is enriched with open-vocabulary semantic embeddings, enabling accurate target selection from natural language instructions. To handle scene changes during multi-stage tasks, we further introduce a consistency-aware update that preserves instance correspondences from only a single post-interaction image, allowing efficient adaptation without rescanning. Clutt3R-Seg is evaluated on both synthetic and real-world datasets, and validated on a real robot. Across all settings, it consistently outperforms state-of-the-art baselines in cluttered and sparse-view scenarios. Even on the most challenging heavy-clutter sequences, Clutt3R-Seg achieves an AP@25 of 61.66, over 2.2x higher than baselines, and with only four input views it surpasses MaskClustering with eight views by more than 2x. The code is available at: https://github.com/jeonghonoh/clutt3r-seg.
- Abstract(参考訳): 信頼性の高い3Dインスタンスセグメンテーションは、言語によるロボット操作の基本である。
その重要な応用は、オクルージョン、限られた視点、ノイズマスクが知覚を低下させる散在した環境にある。
これらの課題に対処するため, Clutt3R-Segという, 散らばったシーンにおける言語によるグルーピングのための, 堅牢な3Dインスタンスセグメンテーションのためのゼロショットパイプラインを提案する。
私たちのキーとなるアイデアは、セマンティックキューの階層的なインスタンスツリーを導入することです。
ノイズマスクを洗練させようとする従来の手法とは異なり,本手法では,クロスビューグルーピングと条件置換により,過密・過密を抑制し,ビュー一貫性マスクとロバストな3Dインスタンスを生成する。
各インスタンスにはオープン語彙のセマンティック埋め込みが組み込まれており、自然言語命令から正確なターゲット選択が可能になる。
マルチステージタスクにおけるシーン変更に対処するため,単一の後処理画像のみからのインスタンス対応を保存し,再スキャンなしに効率よく適応できる一貫性対応更新を導入する。
Clutt3R-Segは、合成と実世界の両方のデータセットで評価され、実際のロボットで検証される。
すべての設定で、散らかったりスパースなシナリオで最先端のベースラインを一貫して上回る。
最も難しいヘビークラッタシーケンスでも、Clutt3R-Segはベースラインよりも2.2倍高い61.66のAP@25を達成し、入力ビューは4つしかなく、MaskClusteringを2倍以上の8ビューで上回っている。
コードは、https://github.com/jeonghonoh/clutt3r-seg.comで入手できる。
関連論文リスト
- CORE-3D: Context-aware Open-vocabulary Retrieval by Embeddings in 3D [0.0]
3Dシーンの理解は、AIとロボティクスの具体化の基礎であり、インタラクションとナビゲーションの信頼性をサポートする。
近年のアプローチでは、視覚言語モデル(VLM)により生成された2次元クラス非依存マスクに埋め込みベクトルを割り当てることで、ゼロショットでオープンな3Dセマンティックマッピングを実現している。
プログレッシブな粒度改善を施したセマンティックSAMを用いて、より正確で多数のオブジェクトレベルのマスクを生成する。
論文 参考訳(メタデータ) (2025-09-29T09:43:00Z) - SGS-3D: High-Fidelity 3D Instance Segmentation via Reliable Semantic Mask Splitting and Growing [20.383892902000976]
高忠実度3Dインスタンスセグメンテーション(SGS-3D)のための分割・成長型セマンティックマスクを提案する。
本稿では,3次元幾何学的プリミティブの共起を利用したマスクフィルタリング手法を提案する。
幾何学的洗練のために,空間的連続性と高次特徴を両立させて細粒度オブジェクトインスタンスを構築する。
論文 参考訳(メタデータ) (2025-09-05T14:37:31Z) - GeoSAM2: Unleashing the Power of SAM2 for 3D Part Segmentation [81.0871900167463]
GeoSAM2は3次元部分分割のためのプロンプト制御可能なフレームワークである。
テクスチャのないオブジェクトが与えられた場合、事前に定義された視点から正規写像とポイントマップを描画する。
部品の選択をガイドするシンプルな2Dプロンプト(クリックやボックス)を受け入れます。
予測されたマスクはオブジェクトにバックプロジェクションされ、ビューに集約される。
論文 参考訳(メタデータ) (2025-08-19T17:58:51Z) - XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - Instance and Panoptic Segmentation Using Conditional Convolutions [96.7275593916409]
本稿では,CondInst と呼ばれる,シンプルで効果的な光学的セグメンテーションフレームワークを提案する。
我々は、CondInstがインスタンス分割タスクと単眼セグメンテーションタスクの両方において精度と推論速度を向上できることを示す。
論文 参考訳(メタデータ) (2021-02-05T06:57:02Z) - SDOD:Real-time Segmenting and Detecting 3D Object by Depth [5.97602869680438]
本稿では,3次元物体を奥行きで分割・検出するリアルタイムフレームワークを提案する。
オブジェクトの深さを深度カテゴリに分類し、インスタンス分割タスクをピクセルレベルの分類タスクに変換する。
挑戦的なKITTIデータセットの実験から、我々のアプローチはLklNetを約1.8倍の性能で、セグメンテーションと3D検出の速度を上回ります。
論文 参考訳(メタデータ) (2020-01-26T09:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。