論文の概要: Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2504.11024v1
- Date: Tue, 15 Apr 2025 09:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 03:57:22.711007
- Title: Easy3D: A Simple Yet Effective Method for 3D Interactive Segmentation
- Title(参考訳): Easy3D: 3Dインタラクティブセグメンテーションのためのシンプルで効果的な方法
- Authors: Andrea Simonelli, Norman Müller, Peter Kontschieder,
- Abstract要約: 本稿では,ドメイン内およびドメイン外両方のデータセットにおいて,従来の最先端技術を上回る3次元インタラクティブセグメンテーション手法を提案する。
我々の単純なアプローチは、Voxelベースのスパースエンコーダと、暗黙のクリック融合を実装した軽量なトランスフォーマーベースのデコーダを統合する。
提案手法は,ScanNet,ScanNet++,S3DIS,KITTI-360など,ベンチマークデータセットの大幅な改善を示す。
- 参考スコア(独自算出の注目度): 10.2138250640885
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increasing availability of digital 3D environments, whether through image-based 3D reconstruction, generation, or scans obtained by robots, is driving innovation across various applications. These come with a significant demand for 3D interaction, such as 3D Interactive Segmentation, which is useful for tasks like object selection and manipulation. Additionally, there is a persistent need for solutions that are efficient, precise, and performing well across diverse settings, particularly in unseen environments and with unfamiliar objects. In this work, we introduce a 3D interactive segmentation method that consistently surpasses previous state-of-the-art techniques on both in-domain and out-of-domain datasets. Our simple approach integrates a voxel-based sparse encoder with a lightweight transformer-based decoder that implements implicit click fusion, achieving superior performance and maximizing efficiency. Our method demonstrates substantial improvements on benchmark datasets, including ScanNet, ScanNet++, S3DIS, and KITTI-360, and also on unseen geometric distributions such as the ones obtained by Gaussian Splatting. The project web-page is available at https://simonelli-andrea.github.io/easy3d.
- Abstract(参考訳): 画像ベースの3D再構成、生成、あるいはロボットが取得したスキャンによっても、デジタル3D環境の可用性が向上し、さまざまなアプリケーションにイノベーションをもたらしている。
3Dインタラクティブセグメンテーションは、オブジェクトの選択や操作といったタスクに役立つ。
さらに、特に目に見えない環境や不慣れなオブジェクトにおいて、様々な設定で、効率的で正確で、うまく機能するソリューションには、永続的なニーズがあります。
本研究では,ドメイン内およびドメイン外両方のデータセットにおいて,従来の最先端技術を上回る3次元インタラクティブセグメンテーション手法を提案する。
我々の単純なアプローチは、ボクセルベースのスパースエンコーダと、暗黙のクリック融合を実装し、優れた性能を実現し、効率を最大化する軽量なトランスフォーマーベースのデコーダを統合する。
提案手法は,ScanNet,ScanNet++,S3DIS,KITTI-360などのベンチマークデータセットや,ガウススプラッティングによって得られたような未知の幾何学的分布についても大幅に改善されている。
プロジェクトのWebページはhttps://simonelli-andrea.github.io/easy3d.comで公開されている。
関連論文リスト
- Unified Semantic Transformer for 3D Scene Understanding [55.415468022487005]
我々は、単一のモデル内に多様な3Dセマンティックタスクを統一する新しいフィードフォワードニューラルネットワークUNITEを紹介する。
我々のモデルは、完全なエンドツーエンドで見えないシーンで動作し、完全な3Dセマンティックジオメトリを推測するのにほんの数秒しかかからない。
UNITEはいくつかの異なる意味的タスクにおいて最先端のパフォーマンスを達成し、タスク固有のモデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-12-16T12:49:35Z) - ASSIST-3D: Adapted Scene Synthesis for Class-Agnostic 3D Instance Segmentation [33.067758244887514]
クラスに依存しない3Dインスタンスのセグメンテーションは、セグメンテーションなしで、以前は目に見えないものを含む全てのオブジェクトインスタンスをセグメンテーションする難しいタスクに取り組む。
現在の手法では、3Dシーンデータやノイズの多い2Dセグメンテーションが不足しているため、一般化に苦慮している。
ASSIST-3Dと呼ばれるクラスに依存しない3次元インスタンスセグメンテーションのための適応型3次元シーン合成パイプラインを提案し、モデル一般化拡張のための適切なデータを合成する。
論文 参考訳(メタデータ) (2025-12-10T06:54:44Z) - Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - SAGOnline: Segment Any Gaussians Online [17.33447710659887]
3D Gaussian Splatting (3DGS) は、明示的な3Dシーン表現のための強力なパラダイムとして登場した。
現在の手法では, 計算コストの禁止, 空間的推論の制限, 複数物体の同時追跡が困難となっている。
Segment Any Gaussians Online (SAGOnline) はガウスシーンにおけるリアルタイム3Dセグメンテーションのための軽量でゼロショットのフレームワークである。
論文 参考訳(メタデータ) (2025-08-11T17:38:50Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - OV-MAP : Open-Vocabulary Zero-Shot 3D Instance Segmentation Map for Robots [18.200635521222267]
OV-MAPは、オブジェクト認識機能を高めるために、オープンな特徴を3Dマップに統合することで、移動ロボットのためのオープンワールド3Dマッピングの新しいアプローチである。
我々は2次元マスクを3次元空間に投影するクラス非依存セグメンテーションモデルと、点雲から生の深度と合成の深度をマージして作成した補足深度画像を組み合わせた。
このアプローチは、3Dマスク投票機構とともに、3D教師付きセグメンテーションモデルに頼ることなく、正確なゼロショット3Dインスタンスセグメンテーションを可能にする。
論文 参考訳(メタデータ) (2025-06-13T08:49:23Z) - 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。
屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文 参考訳(メタデータ) (2025-06-11T09:18:36Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - Oriented-grid Encoder for 3D Implicit Representations [10.02138130221506]
本論文は,3次元幾何エンコーダの3次元特性を明示的に利用した最初のものである。
提案手法は,従来の手法と比較して最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-02-09T19:28:13Z) - SAI3D: Segment Any Instance in 3D Scenes [68.57002591841034]
新規なゼロショット3Dインスタンスセグメンテーション手法であるSAI3Dを紹介する。
我々の手法は3Dシーンを幾何学的プリミティブに分割し、段階的に3Dインスタンスセグメンテーションにマージする。
ScanNet、Matterport3D、さらに難しいScanNet++データセットに関する実証的な評価は、我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-12-17T09:05:47Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Virtual Multi-view Fusion for 3D Semantic Segmentation [11.259694096475766]
仮想ビューにより,従来のマルチビュー手法よりも2次元セマンティックセグメンテーションネットワークを効果的に学習できることを示す。
画素ごとの2次元予測を3次元面に集約すると,仮想多視点融合法により,より優れた3次元セマンティックセマンティックセマンティクス結果が得られる。
論文 参考訳(メタデータ) (2020-07-26T14:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。