論文の概要: SAM 3D: 3Dfy Anything in Images
- arxiv url: http://arxiv.org/abs/2511.16624v1
- Date: Thu, 20 Nov 2025 18:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.784211
- Title: SAM 3D: 3Dfy Anything in Images
- Title(参考訳): SAM 3D:画像の3D化
- Authors: SAM 3D Team, Xingyu Chen, Fu-Jen Chu, Pierre Gleize, Kevin J Liang, Alexander Sax, Hao Tang, Weiyao Wang, Michelle Guo, Thibaut Hardin, Xiang Li, Aohan Lin, Jiawei Liu, Ziqi Ma, Anushka Sagar, Bowen Song, Xiaodong Wang, Jianing Yang, Bowen Zhang, Piotr Dollár, Georgia Gkioxari, Matt Feiszli, Jitendra Malik,
- Abstract要約: 画像から形状, テクスチャ, レイアウトを予測し, 視覚的な3Dオブジェクト再構成のための生成モデルSAM 3Dを提案する。
オブジェクトの形状、テクスチャ、ポーズをアノテートするための、人間用およびモデル・イン・ザ・ループパイプラインでこれを実現する。
コードとモデルの重み付け、オンラインデモ、そしてWild 3Dオブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。
- 参考スコア(独自算出の注目度): 99.1053358868456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SAM 3D, a generative model for visually grounded 3D object reconstruction, predicting geometry, texture, and layout from a single image. SAM 3D excels in natural images, where occlusion and scene clutter are common and visual recognition cues from context play a larger role. We achieve this with a human- and model-in-the-loop pipeline for annotating object shape, texture, and pose, providing visually grounded 3D reconstruction data at unprecedented scale. We learn from this data in a modern, multi-stage training framework that combines synthetic pretraining with real-world alignment, breaking the 3D "data barrier". We obtain significant gains over recent work, with at least a 5:1 win rate in human preference tests on real-world objects and scenes. We will release our code and model weights, an online demo, and a new challenging benchmark for in-the-wild 3D object reconstruction.
- Abstract(参考訳): 画像から形状, テクスチャ, レイアウトを予測し, 視覚的な3Dオブジェクト再構成のための生成モデルSAM 3Dを提案する。
SAM 3Dは自然画像に優れており、オクルージョンとシーン・クラッタが一般的であり、コンテキストからの視覚的認識の手がかりが大きな役割を果たす。
物体の形状、テクスチャ、ポーズをアノテートし、前例のない規模で視覚的にグラウンド化された3D再構成データを提供する。
このデータから、合成事前トレーニングと実世界のアライメントを組み合わせた、現代的なマルチステージトレーニングフレームワークで学習し、3Dの“データバリア”を破壊します。
現実の物体やシーンに対する人間の嗜好テストでは,少なくとも5:1の勝利率で,最近の研究よりも顕著な成果が得られている。
コードとモデルの重み付け、オンラインデモ、そしてWild 3Dオブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。
関連論文リスト
- Reconstructing In-the-Wild Open-Vocabulary Human-Object Interactions [31.686040408527262]
コンピュータビジョンにおいて、単一画像から人間と物体の相互作用(HOI)を再構築することが基本である。
本研究では,微細な3次元人間や物体,それらの相互作用を単一画像からアノテートするためのパイプラインを提案する。
私たちは、将来のテストセットとして機能するために、最初のオープンな3D HOIデータセットOpen3DHOIを構築します。
論文 参考訳(メタデータ) (2025-03-20T06:50:18Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - 3D Reconstruction of Objects in Hands without Real World 3D Supervision [12.70221786947807]
ハンドヘルドオブジェクトを再構築するためのモデル学習をスケールアップするために,3Dインスペクションを活用するモジュールを提案する。
具体的には、ビデオから多視点2Dマスクの監視を抽出し、形状収集から3次元形状の前兆を抽出する。
我々はこれらの間接的な3次元キューを用いて、単一のRGB画像から物体の3次元形状を予測する占有ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-05-04T17:56:48Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。