論文の概要: CAD-Prompted SAM3: Geometry-Conditioned Instance Segmentation for Industrial Objects
- arxiv url: http://arxiv.org/abs/2602.20551v1
- Date: Tue, 24 Feb 2026 05:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.611747
- Title: CAD-Prompted SAM3: Geometry-Conditioned Instance Segmentation for Industrial Objects
- Title(参考訳): CAD-Prompted SAM3:Geometry-Conditioned Instance Segmentation for Industrial Objects
- Authors: Zhenran Tang, Rohan Nagabhirava, Changliu Liu,
- Abstract要約: 本稿ではSAM3上に構築されたCADによるセグメント化フレームワークを提案する。
CADモデルの標準マルチビューレンダリングをプロンプト入力として使用する。
レンダリングされたビューは、表面の外観とは無関係に幾何学ベースの条件付けを提供する。
- 参考スコア(独自算出の注目度): 8.676167989526347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Verbal-prompted segmentation is inherently limited by the expressiveness of natural language and struggles with uncommon, instance-specific, or difficult-to-describe objects: scenarios frequently encountered in manufacturing and 3D printing environments. While image exemplars provide an alternative, they primarily encode appearance cues such as color and texture, which are often unrelated to a part's geometric identity. In industrial settings, a single component may be produced in different materials, finishes, or colors, making appearance-based prompting unreliable. In contrast, such objects are typically defined by precise CAD models that capture their canonical geometry. We propose a CAD-prompted segmentation framework built on SAM3 that uses canonical multi-view renderings of a CAD model as prompt input. The rendered views provide geometry-based conditioning independent of surface appearance. The model is trained using synthetic data generated from mesh renderings in simulation under diverse viewpoints and scene contexts. Our approach enables single-stage, CAD-prompted mask prediction, extending promptable segmentation to objects that cannot be robustly described by language or appearance alone.
- Abstract(参考訳): 自然言語の表現力によって本質的に制限され、通常ではない、インスタンス固有の、あるいは説明が難しいオブジェクトに苦しむ:製造や3Dプリンティング環境でしばしば遭遇するシナリオ。
画像の例は代替手段を提供するが、主に色やテクスチャなどの外観の手がかりを符号化するが、これは部分の幾何学的アイデンティティとは無関係であることが多い。
工業環境では、1つの部品は異なる材料、仕上げ、色で製造され、外観に基づくプロンプトは信頼性が低い。
対照的に、そのようなオブジェクトは典型的幾何学を捉える正確なCADモデルによって定義される。
本稿では,CADモデルの標準マルチビューレンダリングをプロンプト入力として利用するSAM3上に構築したCADプロンプトセグメンテーションフレームワークを提案する。
レンダリングされたビューは、表面の外観とは無関係に幾何学ベースの条件付けを提供する。
このモデルは、様々な視点とシーンコンテキストの下でシミュレーションにおいてメッシュレンダリングから生成された合成データを用いて訓練される。
提案手法により,一段階のCADプロンプトマスクの予測が可能となり,言語や外観だけでは表現できないオブジェクトへの迅速なセグメンテーションが可能となった。
関連論文リスト
- CADKnitter: Compositional CAD Generation from Text and Geometry Guidance [8.644079160190175]
幾何誘導拡散サンプリング戦略を用いた構成CAD生成フレームワークCADKnitterを提案する。
CADKnitterは、与えられたCADモデルの幾何学的制約と、所望の設計テキストプロンプトのセマンティック制約の両方に従う補完的なCAD部分を生成することができる。
また、310,000以上のCADモデルのサンプルと、テキストプロンプトとアセンブリメタデータを含むデータセット、いわゆるKnitCADをキュレートする。
論文 参考訳(メタデータ) (2025-12-12T01:06:38Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Sparse Multi-Object Render-and-Compare [33.97243145891282]
一つの画像から静的な物体の3次元形状とポーズを再構築することは、様々な産業にとって重要な課題である。
直接3D形状を予測することで、非現実的で、過度に滑らかになったり、刻まれた形になる。
CADモデルを取得することで、現実的な形状が保証されるが、堅牢で正確なアライメントが必要である。
論文 参考訳(メタデータ) (2023-10-17T12:01:32Z) - Zero-Shot Text-Guided Object Generation with Dream Fields [111.06026544180398]
ニューラルレンダリングとマルチモーダル画像とテキスト表現を組み合わせることで、多様な3Dオブジェクトを合成する。
提案手法であるドリームフィールドは,3次元の監督なしに広範囲の物体の形状と色を生成できる。
実験では、ドリーム・フィールズ(Dream Fields)は、様々な自然言語のキャプションから、現実的で多視点で一貫したオブジェクトの幾何学と色を作り出す。
論文 参考訳(メタデータ) (2021-12-02T17:53:55Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。