Fugu-MT 論文翻訳(概要): WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

論文の概要: WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images

arxiv url: http://arxiv.org/abs/2503.08407v2
Date: Mon, 17 Mar 2025 03:30:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.409809
Title: WildSeg3D: Segment Any 3D Objects in the Wild from 2D Images
Title（参考訳）: WildSeg3D:2D画像から野生のあらゆる3Dオブジェクトを分離する
Authors: Yansong Guo, Jie Hu, Yansong Qu, Liujuan Cao,
Abstract要約: 多様な環境にまたがる任意の3Dオブジェクトのセグメンテーションを可能にする効率的なアプローチであるWildSeg3Dを紹介する。このフィードフォワードアプローチの重要な課題は、複数の2次元ビューにまたがる3Dアライメントエラーの蓄積である。また,リアルタイム対話型セグメンテーションのための動的グローバルアライニング(DGA)とマルチビューグループマッピング(MGM)を提案する。
参考スコア（独自算出の注目度）: 16.107027445270887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in interactive 3D segmentation from 2D images have demonstrated impressive performance. However, current models typically require extensive scene-specific training to accurately reconstruct and segment objects, which limits their applicability in real-time scenarios. In this paper, we introduce WildSeg3D, an efficient approach that enables the segmentation of arbitrary 3D objects across diverse environments using a feed-forward mechanism. A key challenge of this feed-forward approach lies in the accumulation of 3D alignment errors across multiple 2D views, which can lead to inaccurate 3D segmentation results. To address this issue, we propose Dynamic Global Aligning (DGA), a technique that improves the accuracy of global multi-view alignment by focusing on difficult-to-match 3D points across images, using a dynamic adjustment function. Additionally, for real-time interactive segmentation, we introduce Multi-view Group Mapping (MGM), a method that utilizes an object mask cache to integrate multi-view segmentations and respond rapidly to user prompts. WildSeg3D demonstrates robust generalization across arbitrary scenes, thereby eliminating the need for scene-specific training. Specifically, WildSeg3D not only attains the accuracy of state-of-the-art (SOTA) methods but also achieves a $40\times$ speedup compared to existing SOTA models. Our code will be publicly available.
Abstract（参考訳）: 2次元画像からのインタラクティブな3Dセグメンテーションの最近の進歩は印象的な性能を示している。しかし、現在のモデルは、オブジェクトを正確に再構築し、セグメント化するために、広範囲なシーン固有のトレーニングを必要とし、リアルタイムシナリオにおける適用性を制限する。本稿では,フィードフォワード機構を用いて,任意の3Dオブジェクトを多様な環境に分割する効率的な手法であるWildSeg3Dを紹介する。このフィードフォワードアプローチの重要な課題は、複数の2Dビューにまたがる3Dアライメントエラーの蓄積であり、不正確な3Dセグメンテーション結果をもたらす可能性がある。この問題に対処するため,動的調整関数を用いて画像間での3Dポイントのマッチングを困難にすることで,グローバルなマルチビューアライメントの精度を向上させる技術であるDynamic Global Aligning (DGA)を提案する。さらに、リアルタイムの対話型セグメンテーションにおいて、オブジェクトマスクキャッシュを利用してマルチビューセグメンテーションを統合し、ユーザプロンプトに迅速に応答する手法であるMGM(Multi-view Group Mapping)を導入する。 WildSeg3Dは任意のシーンにわたる堅牢な一般化を示し、シーン固有のトレーニングを不要にする。具体的には、WildSeg3Dは最先端のSOTA(State-of-the-art)メソッドの精度を達成するだけでなく、既存のSOTAモデルと比較して40\times$のスピードアップも達成している。私たちのコードは公開されます。

関連論文リスト

Multi-View Projection for Unsupervised Domain Adaptation in 3D Semantic Segmentation [0.9345376836714131]
教師なしドメイン適応(UDA)のための多視点プロジェクションフレームワークを提案する。我々の手法はLiDARスキャンをコヒーレントな3Dシーンに整列し、複数の仮想カメラのポーズからレンダリングして2Dデータセット(PC2D)を生成する。 2Dセグメンテーションモデルのアンサンブルは、これらのモダリティに基づいて訓練され、推論中は、1シーンあたり数百ビューが処理され、ロジットは3Dにバックプロジェクションされる。我々のフレームワークはレアクラスのセグメンテーションを可能にし、それらのクラスに対する2Dアノテーションのみを活用しながら、ソースドメイン内の他のクラスに対する3Dアノテーションに依存していることを示す。
論文参考訳（メタデータ） (2025-05-21T14:08:42Z)
NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文参考訳（メタデータ） (2025-04-20T14:39:27Z)
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文参考訳（メタデータ） (2025-03-23T16:40:20Z)
Enforcing View-Consistency in Class-Agnostic 3D Segmentation Fields [46.711276257688326]
Radiance Fieldsは、複数の画像から3Dシーンをモデリングするための強力なツールになっている。いくつかの手法は2Dセマンティックマスクを用いてうまく機能するが、クラスに依存しないセグメンテーションにはあまり一般化しない。より最近の手法では、コントラスト学習を用いて高次元の3次元特徴場を最適化することでこの問題を回避することができる。
論文参考訳（メタデータ） (2024-08-19T12:07:24Z)
Segment3D: Learning Fine-Grained Class-Agnostic 3D Segmentation without Manual Labels [141.23836433191624]
現在の3Dシーンセグメンテーション手法は、手動で注釈付けされた3Dトレーニングデータセットに大きく依存している。高品質な3Dセグメンテーションマスクを生成するクラス非依存の3Dシーンセグメンテーション法であるSegment3Dを提案する。
論文参考訳（メタデータ） (2023-12-28T18:57:11Z)
SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文参考訳（メタデータ） (2023-12-13T18:59:58Z)
DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文参考訳（メタデータ） (2023-11-18T21:58:28Z)
ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文参考訳（メタデータ） (2022-11-22T06:19:37Z)
Graph-DETR3D: Rethinking Overlapping Regions for Multi-View 3D Object Detection [17.526914782562528]
グラフ構造学習(GSL)による多視点画像情報を自動的に集約するグラフDETR3Dを提案する。我々の最良のモデルは、nuScenesテストリーダーボード上で49.5 NDSを達成し、様々な画像ビュー3Dオブジェクト検出器と比較して新しい最先端技術を実現している。
論文参考訳（メタデータ） (2022-04-25T12:10:34Z)
Learning Multi-View Aggregation In the Wild for Large-Scale 3D Semantic Segmentation [3.5939555573102853]
近年の3次元セマンティックセグメンテーションの研究は、各モータリティを専用ネットワークで処理することで、画像と点雲の相乗効果を活用することを提案する。任意の位置で撮影された画像から特徴をマージするために,3Dポイントの視聴条件を利用したエンドツーエンドのトレーニング可能な多視点アグリゲーションモデルを提案する。本手法は,標準的な2Dネットワークと3Dネットワークを組み合わせることで,カラー化された点群とハイブリッドな2D/3Dネットワーク上での3Dモデルの性能を向上する。
論文参考訳（メタデータ） (2022-04-15T17:10:48Z)
Interactive Object Segmentation in 3D Point Clouds [27.88495480980352]
本稿では,ユーザが直接3Dポイントクラウドと対話する対話型3Dオブジェクトセグメンテーション手法を提案する。私たちのモデルは、ターゲットドメインからのトレーニングデータを必要としない。異なるデータ特性と異なるオブジェクトクラスを持つ他のいくつかのデータセットでうまく機能する。
論文参考訳（メタデータ） (2022-04-14T18:31:59Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。