論文の概要: ClickSeg3D: Few-Click Interactive Segmentation via Semantic Embeddings
- arxiv url: http://arxiv.org/abs/2605.08925v2
- Date: Sat, 16 May 2026 09:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.225125
- Title: ClickSeg3D: Few-Click Interactive Segmentation via Semantic Embeddings
- Title(参考訳): ClickSeg3D: セマンティック埋め込みによるFew-Clickインタラクティブセグメンテーション
- Authors: Xueyang Kang, Zijian Yu, Kourosh Khoshelham, Liangliang Nan,
- Abstract要約: そこで本研究では,スパースでランダムにダウンサンプリングされた3D点を直接操作する対話型セグメンテーションフレームワークを提案する。
我々のフレームワークは、トランスフォーマーベースのエンコーダと階層型マスクデコーダで構成されており、マルチレベルなクロップ・アンド・マージ操作を統合している。
我々のモデルは、強いベースラインと比較してmIoUメトリックを20%以上改善します。
- 参考スコア(独自算出の注目度): 9.399068602086821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive segmentation allows efficient label generation by leveraging user-provided clicks to progressively refine predictions, which is critical when fully supervised labels are costly or generalization to unseen classes is needed. Existing 3D interactive methods are limited: most operate sequentially, predicting only one object per iteration with binary masks, while several recent approaches depend on 2D foundation models and camera alignment to bridge the 2D-3D gap. To address these limitations, we propose a novel interactive segmentation framework that operates directly on sparse, randomly downsampled 3D points and processes multiple object clicks in a single forward pass. Our framework consists of a point Transformer-based encoder and a hierarchical mask decoder, which integrates multi-level crop-and-merge operations conditioned on learnable semantic embeddings. Unlike prior interactive approaches that require repeated model updates after each manually corrective click, our method jointly reasons over all click queries, modeling inter-instance relationships and refining both spatial masks and semantic predictions through spatial and semantic embeddings. Extensive experiments demonstrate that our model improves the mIoU metric by over 20 percent compared to strong baselines and achieves 8-10 percent gains under cross-dataset evaluation for a one-click per instance setting, often requiring only a single click per object. Our approach provides a generalizable and efficient solution for interactive 3D instance segmentation, particularly suitable for real-time applications such as robotic manipulation, navigation, and rapid 3D semantic annotation.
- Abstract(参考訳): インタラクティブセグメンテーションは、ユーザが提供するクリックを利用して、完全に教師付きラベルがコストがかかる場合や、見当たらないクラスへの一般化が必要な場合の予測を段階的に洗練することで、効率的なラベル生成を可能にする。
既存の3Dインタラクティブな手法には制限がある。ほとんどの場合、連続して動作し、バイナリマスクでイテレーション毎に1つのオブジェクトしか予測しないが、最近のいくつかのアプローチは、2D基礎モデルと2D-3Dギャップを埋めるためにカメラアライメントに依存する。
これらの制約に対処するために,疎結合でランダムな3Dポイントをランダムにダウンサンプリングし,複数のオブジェクトクリックを1回のフォワードパスで処理する,インタラクティブなセグメンテーションフレームワークを提案する。
このフレームワークは,学習可能なセマンティック埋め込みを前提とした多段階の作物・マージ操作を統合した,ポイントトランスフォーマーベースのエンコーダと階層型マスクデコーダから構成される。
従来の対話的手法では,手動による修正クリックの繰り返しモデル更新が必要であったのに対し,我々の手法はすべてのクリッククエリに対して共同で理由付けを行い,インスタンス間の関係をモデル化し,空間マスクと意味的予測を空間的および意味的埋め込みを通じて改善する。
大規模な実験により、我々のモデルは強いベースラインと比較してmIoUメトリックを20%以上改善し、インスタンス単位の1クリック当たりのクロスデータセット評価で8~10パーセント向上し、オブジェクト毎の1クリックしか必要としないことがわかった。
ロボット操作やナビゲーション,迅速な3Dセマンティックアノテーションといったリアルタイムアプリケーションに適した,インタラクティブな3Dインスタンスセマンティクスのための汎用的で効率的なソリューションを提供する。
関連論文リスト
- Articulated 3D Scene Graphs for Open-World Mobile Manipulation [55.97942733699124]
本報告では, セマンティックな3次元シーングラフを構築するためのフレームワークであるMoMa-SGについて述べる。
新たな統合的ツイスト推定法を用いて調音モデルを推定する。
また,Arti4D-Semanticデータセットについても紹介する。
論文 参考訳(メタデータ) (2026-02-18T10:40:35Z) - REACT3D: Recovering Articulations for Interactive Physical 3D Scenes [96.27769519526426]
REACT3Dは静的な3Dシーンを一貫した幾何学を持つシミュレーション可能なインタラクティブなレプリカに変換するフレームワークである。
室内の様々な場面における検出・分離・調音計測における最先端性能について検討した。
論文 参考訳(メタデータ) (2025-10-13T12:37:59Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - Articulated Object Manipulation using Online Axis Estimation with SAM2-Based Tracking [57.942404069484134]
アーティキュレートされたオブジェクト操作は、オブジェクトの軸を慎重に考慮する必要がある、正確なオブジェクトインタラクションを必要とする。
従来の研究では、対話的な知覚を用いて関節のある物体を操作するが、通常、オープンループのアプローチは相互作用のダイナミクスを見渡すことに悩まされる。
本稿では,対話的知覚と3次元点雲からのオンライン軸推定を統合したクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2024-09-24T17:59:56Z) - iDet3D: Towards Efficient Interactive Object Detection for LiDAR Point
Clouds [39.261055567560724]
我々は,効率的な対話型3Dオブジェクト検出器iDet3Dを提案する。
iDet3Dはユーザフレンドリーな2Dインターフェースをサポートし、3D空間を探索する際の認知的負担を軽減する。
そこで本手法は,数クリックで正確なアノテーションを構築することができることを示す。
論文 参考訳(メタデータ) (2023-12-24T09:59:46Z) - AGILE3D: Attention Guided Interactive Multi-object 3D Segmentation [32.63772366307106]
我々は,複数の3Dオブジェクトの同時セグメンテーションをサポートする,効率的で注目度の高いモデルAGILE3Dを紹介する。
ユーザクリックを空間的時間的クエリとしてエンコードし、クリッククエリと3Dシーン間の明示的なインタラクションを可能にする。
4つの異なる3Dポイントクラウドデータセットによる実験では、AGILE3Dは新たな最先端技術を設定している。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。