論文の概要: Ref-SAM3D: Bridging SAM3D with Text for Reference 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2511.19426v1
- Date: Mon, 24 Nov 2025 18:58:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.380419
- Title: Ref-SAM3D: Bridging SAM3D with Text for Reference 3D Reconstruction
- Title(参考訳): Ref-SAM3D:リファレンス3D再構成のためのテキスト付きSAM3Dのブリッジ
- Authors: Yun Zhou, Yaoting Wang, Guangquan Jie, Jinyu Liu, Henghui Ding,
- Abstract要約: Ref-SAM3D は SAM3D の単純な拡張であり、テキスト記述を高レベルな事前表現として組み込む。
Ref-SAM3Dは、自然言語のみでガイドされ、単一の2次元ビューであり、競争力と高忠実度ゼロショット再構成性能を提供する。
- 参考スコア(独自算出の注目度): 45.27825308128629
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SAM3D has garnered widespread attention for its strong 3D object reconstruction capabilities. However, a key limitation remains: SAM3D cannot reconstruct specific objects referred to by textual descriptions, a capability that is essential for practical applications such as 3D editing, game development, and virtual environments. To address this gap, we introduce Ref-SAM3D, a simple yet effective extension to SAM3D that incorporates textual descriptions as a high-level prior, enabling text-guided 3D reconstruction from a single RGB image. Through extensive qualitative experiments, we show that Ref-SAM3D, guided only by natural language and a single 2D view, delivers competitive and high-fidelity zero-shot reconstruction performance. Our results demonstrate that Ref-SAM3D effectively bridges the gap between 2D visual cues and 3D geometric understanding, offering a more flexible and accessible paradigm for reference-guided 3D reconstruction. Code is available at: https://github.com/FudanCVL/Ref-SAM3D.
- Abstract(参考訳): SAM3Dは強力な3Dオブジェクト再構成能力で広く注目を集めている。
SAM3Dは3D編集、ゲーム開発、仮想環境といった実用上不可欠な機能であるテキスト記述によって参照される特定のオブジェクトを再構築することはできない。
このギャップに対処するために、テキスト記述を高レベルな事前表現として組み込んだSAM3Dの簡易かつ効果的な拡張であるRef-SAM3Dを導入し、単一のRGB画像からテキスト誘導された3D再構成を可能にする。
Ref-SAM3Dは自然言語と1つの2次元ビューのみで誘導され、競争力と高忠実度ゼロショット再構成性能を提供する。
以上の結果から,Ref-SAM3Dは2次元視覚的手がかりと3次元幾何学的理解のギャップを効果的に橋渡しし,参照誘導3次元再構成のためのより柔軟でアクセスしやすいパラダイムを提供することが示された。
コードは、https://github.com/FudanCVL/Ref-SAM3Dで入手できる。
関連論文リスト
- SAM 3D: 3Dfy Anything in Images [99.1053358868456]
画像から形状, テクスチャ, レイアウトを予測し, 視覚的な3Dオブジェクト再構成のための生成モデルSAM 3Dを提案する。
オブジェクトの形状、テクスチャ、ポーズをアノテートするための、人間用およびモデル・イン・ザ・ループパイプラインでこれを実現する。
コードとモデルの重み付け、オンラインデモ、そしてWild 3Dオブジェクト再構築のための新しい挑戦的なベンチマークをリリースします。
論文 参考訳(メタデータ) (2025-11-20T18:31:46Z) - SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping [7.222966501323922]
本研究では,単一視界から透明物体とスペキュラ物体をロボットで把握することのできる,学習自由フレームワークSR3Dを提案する。
具体的には、単一のビューRGBと深度画像が与えられた場合、SR3Dはまず外部視覚モデルを使用して3D再構成されたオブジェクトメッシュを生成する。
そして、鍵となるアイデアは、3Dオブジェクトのポーズとスケールを決定し、再構成されたオブジェクトを元の奥行き劣化した3Dシーンに正確にローカライズすることだ。
論文 参考訳(メタデータ) (2025-05-30T07:38:46Z) - Amodal3R: Amodal 3D Reconstruction from Occluded 2D Images [66.77399370856462]
Amodal3Rは、部分的な観測から3Dオブジェクトを再構成するために設計された条件付き3D生成モデルである。
実際のシーンに隠蔽物が存在する場合でも、完全な3Dオブジェクトを復元することを学ぶ。
2次元アモーダルコンプリートと3次元再構成とを独立に行う既存の手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-17T17:59:01Z) - ShapeLLM: Universal 3D Object Understanding for Embodied Interaction [37.0434133128805]
本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。
ShapeLLMは、構築された命令追従データに基づいてトレーニングされ、新しい人為的なベンチマークである3D MM-Vetでテストされる。
論文 参考訳(メタデータ) (2024-02-27T18:57:12Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Monocular 3D Object Reconstruction with GAN Inversion [122.96094885939146]
MeshInversionはテクスチャ化された3Dメッシュの再構築を改善するための新しいフレームワークである。
これは、3Dテクスチャメッシュ合成のために事前訓練された3D GANの生成前を利用する。
本フレームワークは,観察部と観察部の両方で一貫した形状とテクスチャを有する忠実な3次元再構成を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。