論文の概要: ASIA: Adaptive 3D Segmentation using Few Image Annotations
- arxiv url: http://arxiv.org/abs/2509.24288v1
- Date: Mon, 29 Sep 2025 05:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.754776
- Title: ASIA: Adaptive 3D Segmentation using Few Image Annotations
- Title(参考訳): ASIA:少ない画像アノテーションを用いた適応型3次元セグメンテーション
- Authors: Sai Raj Kishore Perla, Aditya Vora, Sauradip Nag, Ali Mahdavi-Amiri, Hao Zhang,
- Abstract要約: ASIA(Adaptive 3D using few Image s)は、3Dで非意味的かつ非テキスト記述可能な「部分」のセグメンテーションを可能にする新しいフレームワークである。
本手法は,画像空間から3次元へのセグメンテーションの転送に,SD(Stable Diffusion)などのテキスト・画像拡散モデルのリッチな先行性を利用する。
ASIAは意味的および非意味的な3Dセグメンテーションタスクに対して実用的で一般化可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 21.733451438390755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ASIA (Adaptive 3D Segmentation using few Image Annotations), a novel framework that enables segmentation of possibly non-semantic and non-text-describable "parts" in 3D. Our segmentation is controllable through a few user-annotated in-the-wild images, which are easier to collect than multi-view images, less demanding to annotate than 3D models, and more precise than potentially ambiguous text descriptions. Our method leverages the rich priors of text-to-image diffusion models, such as Stable Diffusion (SD), to transfer segmentations from image space to 3D, even when the annotated and target objects differ significantly in geometry or structure. During training, we optimize a text token for each segment and fine-tune our model with a novel cross-view part correspondence loss. At inference, we segment multi-view renderings of the 3D mesh, fuse the labels in UV-space via voting, refine them with our novel Noise Optimization technique, and finally map the UV-labels back onto the mesh. ASIA provides a practical and generalizable solution for both semantic and non-semantic 3D segmentation tasks, outperforming existing methods by a noticeable margin in both quantitative and qualitative evaluations.
- Abstract(参考訳): ASIA(Adaptive 3D Segmentation using few Image Annotation)は,非意味的かつテキスト記述不能な「部分」を3Dでセグメンテーションできる新しいフレームワークである。
私たちのセグメンテーションは、マルチビュー画像よりも簡単に収集でき、3Dモデルよりもアノテートを必要とせず、潜在的に曖昧なテキスト記述よりも正確である、いくつかのユーザアノテート・ザ・ワイヤド・イメージによって制御可能である。
本手法は,画像空間から3次元への分割を,アノテーションや対象オブジェクトが幾何学的・構造的に大きく異なる場合でも,テキストと画像の拡散モデルであるSD(Stable Diffusion)を用いて転送する。
トレーニング中、各セグメントにテキストトークンを最適化し、新しいクロスビュー部分対応損失でモデルを微調整する。
推測では、3Dメッシュのマルチビューレンダリングを分割し、投票によってUV空間のラベルを融合させ、新しいノイズ最適化技術でそれらを洗練し、最終的にUVラベルをメッシュにマッピングする。
ASIAは意味的および非意味的な3次元セグメンテーションタスクに対して実用的で一般化可能なソリューションを提供し、定量評価と定性評価の両方において既存の手法よりも顕著に優れている。
関連論文リスト
- Few-Shot 3D Volumetric Segmentation with Multi-Surrogate Fusion [31.736235596070937]
軽量マルチサロゲート融合(MSF)を用いた新しい3DセグメンテーションフレームワークMSFSegを提案する。
MSFSegは、1つまたは数個の注釈付き2Dスライスまたは3Dシーケンスセグメントを備えた、目に見えない3Dオブジェクト/組織(トレーニング中)を自動的に分割することができる。
提案するMSFモジュールは, ラベル付きスライスと少数のラベル付きスライス/シーケンス間の包括的および多彩な相関関係を, 複数の指定されたサロゲートを介して抽出する。
論文 参考訳(メタデータ) (2024-08-26T17:15:37Z) - Open-Vocabulary 3D Semantic Segmentation with Text-to-Image Diffusion Models [57.37244894146089]
Diff2Sceneは、テキスト画像生成モデルからの凍結表現と、サルエント・アウェアと幾何学的アウェアマスクを併用して、オープンな3次元セマンティックセマンティックセグメンテーションと視覚的グラウンドニングタスクに活用する。
競争ベースラインを上回り、最先端の手法よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-07-18T16:20:56Z) - TeMO: Towards Text-Driven 3D Stylization for Multi-Object Meshes [67.5351491691866]
我々は,多目的3Dシーンを解析し,そのスタイルを編集する,TeMOと呼ばれる新しいフレームワークを提案する。
提案手法は,高品質なスタイリングコンテンツを合成し,多目的3Dメッシュで既存手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-12-07T12:10:05Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Learning 3D Semantic Segmentation with only 2D Image Supervision [18.785840615548473]
多視点融合を用いた2次元意味画像分割から派生した擬似ラベルから3次元モデルを訓練する。
提案するネットワークアーキテクチャである2D3DNetは,5大陸20都市で撮影されたライダーと画像を備えた新しい都市データセットの実験において,ベースラインよりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-10-21T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。