Fugu-MT 論文翻訳(概要): SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

論文の概要: SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

arxiv url: http://arxiv.org/abs/2306.02245v2
Date: Mon, 29 Jan 2024 12:14:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-30 22:29:48.463798
Title: SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model
Title（参考訳）: sam3d: segment anythingモデルによるゼロショット3dオブジェクト検出
Authors: Dingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai
Abstract要約: 本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
参考スコア（独自算出の注目度）: 59.04877271899894
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the development of large language models, many remarkable linguistic systems like ChatGPT have thrived and achieved astonishing success on many tasks, showing the incredible power of foundation models. In the spirit of unleashing the capability of foundation models on vision tasks, the Segment Anything Model (SAM), a vision foundation model for image segmentation, has been proposed recently and presents strong zero-shot ability on many downstream 2D tasks. However, whether SAM can be adapted to 3D vision tasks has yet to be explored, especially 3D object detection. With this inspiration, we explore adapting the zero-shot ability of SAM to 3D object detection in this paper. We propose a SAM-powered BEV processing pipeline to detect objects and get promising results on the large-scale Waymo open dataset. As an early attempt, our method takes a step toward 3D object detection with vision foundation models and presents the opportunity to unleash their power on 3D vision tasks. The code is released at https://github.com/DYZhang09/SAM3D.
Abstract（参考訳）: 大規模な言語モデルの開発により、chatgptのような多くの目立った言語システムが成長し、多くのタスクで驚くべき成功を収めた。視覚タスクにおける基礎モデルの能力を解き放つため、画像分割のための視覚基盤モデルであるsegment anything model(sam)が最近提案され、多くの下流2dタスクにおいて強いゼロショット能力を示す。しかし、samが3dビジョンタスクに適応できるか、特に3dオブジェクト検出についてはまだ検討されていない。このインスピレーションにより,本論文ではSAMのゼロショット能力を3次元物体検出に適用することを検討する。大規模Waymoオープンデータセット上でオブジェクトを検出し,有望な結果を得るためのSAMを用いたBEV処理パイプラインを提案する。初期の試みとして,視覚基盤モデルを用いた3次元物体検出への一歩を踏み出し,そのパワーを3次元視覚タスクに解き放つ機会を提案する。コードはhttps://github.com/dyzhang09/sam3dでリリースされる。

関連論文リスト

Detect Anything 3D in the Wild [34.293450721860616]
DetAny3Dは任意のカメラ構成で新しい物体を検知できる3D検出基盤モデルである。 2D知識を3Dに効果的に転送するために、DetAny3Dは2DアグリゲータとZero-Embedding Mappingによる3Dインタプリタという2つのコアモジュールを組み込んでいる。 DetAny3Dは、未確認のカテゴリや新しいカメラ構成の最先端性能を実現する。
論文参考訳（メタデータ） (2025-04-10T17:59:22Z)
DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。 3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。 2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文参考訳（メタデータ） (2025-03-24T17:59:11Z)
Point-SAM: Promptable 3D Segmentation Model for Point Clouds [25.98791840584803]
本稿では,点雲に着目した3次元プロンプト可能なセグメンテーションモデル(Point-SAM)を提案する。提案手法では,SAMを3次元領域に拡張するトランスフォーマー方式を用いる。本モデルは,室内および屋外のベンチマークにおいて,最先端のモデルよりも優れる。
論文参考訳（メタデータ） (2024-06-25T17:28:03Z)
VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文参考訳（メタデータ） (2024-04-15T03:12:12Z)
Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文参考訳（メタデータ） (2024-04-12T17:58:04Z)
Leveraging Large-Scale Pretrained Vision Foundation Models for Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文参考訳（メタデータ） (2023-11-03T15:41:15Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文参考訳（メタデータ） (2022-08-22T03:38:01Z)
Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文参考訳（メタデータ） (2022-07-21T17:56:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。