論文の概要: Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion
- arxiv url: http://arxiv.org/abs/2512.06882v1
- Date: Sun, 07 Dec 2025 15:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.572977
- Title: Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion
- Title(参考訳): 多視点ベイズ核融合による産業シーンの階層的画像誘導3次元点雲分割
- Authors: Yu Zhu, Naoya Chiba, Koichi Hashimoto,
- Abstract要約: 3Dセグメンテーションは、高密度なレイアウトとマルチスケールオブジェクトを持つ複雑なシーンを理解するために重要である。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
本稿では,階層的な画像誘導型3次元セグメンテーションフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.679314646805623
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reliable 3D segmentation is critical for understanding complex scenes with dense layouts and multi-scale objects, as commonly seen in industrial environments. In such scenarios, heavy occlusion weakens geometric boundaries between objects, and large differences in object scale will cause end-to-end models fail to capture both coarse and fine details accurately. Existing 3D point-based methods require costly annotations, while image-guided methods often suffer from semantic inconsistencies across views. To address these challenges, we propose a hierarchical image-guided 3D segmentation framework that progressively refines segmentation from instance-level to part-level. Instance segmentation involves rendering a top-view image and projecting SAM-generated masks prompted by YOLO-World back onto the 3D point cloud. Part-level segmentation is subsequently performed by rendering multi-view images of each instance obtained from the previous stage and applying the same 2D segmentation and back-projection process at each view, followed by Bayesian updating fusion to ensure semantic consistency across views. Experiments on real-world factory data demonstrate that our method effectively handles occlusion and structural complexity, achieving consistently high per-class mIoU scores. Additional evaluations on public dataset confirm the generalization ability of our framework, highlighting its robustness, annotation efficiency, and adaptability to diverse 3D environments.
- Abstract(参考訳): 信頼性の高い3Dセグメンテーションは、産業環境でよく見られるような、密集したレイアウトと多スケールオブジェクトを持つ複雑なシーンを理解するために重要である。
このようなシナリオでは、重閉塞はオブジェクト間の幾何学的境界を弱め、オブジェクトスケールの大きな違いは、粗い細部と細部の両方を正確に捉えるのに失敗する。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
これらの課題に対処するため、階層的な画像誘導型3次元セグメンテーションフレームワークを提案し、インスタンスレベルから部分レベルへのセグメンテーションを段階的に洗練する。
インスタンスセグメンテーションでは、トップビューイメージのレンダリングと、YOLO-Worldによって誘導されるSAM生成マスクを3Dポイントクラウドに投影する。
その後、前段から得られた各インスタンスのマルチビュー画像をレンダリングし、各ビューで同じ2Dセグメンテーションとバックプロジェクションプロセスを適用し、続いてビュー間のセマンティック一貫性を確保するためにベイズ更新融合を行う。
実世界の工場データを用いた実験により,本手法は閉塞と構造的複雑さを効果的に処理し,クラスごとのmIoUスコアを一定に高めていることが示された。
各種3次元環境へのロバスト性, アノテーション効率, 適応性を強調し, フレームワークの一般化能力を確認した。
関連論文リスト
- MV-SAM: Multi-view Promptable Segmentation using Pointmap Guidance [79.57732829495843]
本稿では,ポイントマップを用いた3次元一貫性を実現する多視点セグメンテーションフレームワークMV-SAMを紹介する。
MV-SAMは画像を持ち上げて3D空間にプロンプトし、明示的な3Dネットワークや注釈付き3Dデータを必要としない。
論文 参考訳(メタデータ) (2026-01-25T15:00:37Z) - Towards 3D Object-Centric Feature Learning for Semantic Scene Completion [18.41627244498394]
視覚に基づく3Dセマンティックシーンコンプリート(SSC)は、自動運転の可能性から注目を集めている。
シーンを個々のオブジェクトインスタンスに分解するオブジェクト中心の予測フレームワークであるOceanを提案する。
その結果,Oceanは17.40点,mIoUスコアは20.28点であった。
論文 参考訳(メタデータ) (2025-11-17T06:28:26Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion [15.837932667195037]
IGFuseは対話型ガウスシーンを複数のスキャンから観測することで再構成する新しいフレームワークである。
本手法は,ガウス場を意識したセグメンテーションを構築し,スキャン間の双方向光度・セマンティック一貫性を実現する。
IGFuseは、密度の高い観測や複雑なパイプラインを使わずに、高忠実なレンダリングとオブジェクトレベルのシーン操作を可能にする。
論文 参考訳(メタデータ) (2025-08-18T17:59:47Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [91.94869042117621]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - OmniSeg3D: Omniversal 3D Segmentation via Hierarchical Contrastive
Learning [31.234212614311424]
OmniSeg3Dは,すべてのものを同時に3Dでセグメント化するための全次元セグメント化手法である。
不整合な2Dセグメンテーションによって引き起こされる課題に対処するため、このフレームワークはグローバルな一貫した3D機能フィールドを生み出す。
提案手法が高品質な3次元セグメンテーションと正確な階層構造理解に与える影響を実験により実証した。
論文 参考訳(メタデータ) (2023-11-20T11:04:59Z) - 3D Instance Segmentation of MVS Buildings [5.2517244720510305]
本稿では,多視点ステレオ(MVS)都市シーンから3次元建物をセグメント化するための新しい枠組みを提案する。
この研究の重点は、大型で不正確な3D表面モデルに取り付けられたとしても、3Dビルディングインスタンスを検出し、セグメンテーションすることにある。
論文 参考訳(メタデータ) (2021-12-18T11:12:38Z) - Weakly Supervised Semantic Segmentation in 3D Graph-Structured Point
Clouds of Wild Scenes [36.07733308424772]
3Dセグメンテーションラベルの欠如は、効率的な点雲セグメンテーションの主な障害の1つである。
本稿では,2D のみを監督する点群における大規模セマンティックシーンセグメンテーションのための,新しいディープグラフ畳み込みネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-26T23:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。