論文の概要: ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
- arxiv url: http://arxiv.org/abs/2601.11514v1
- Date: Fri, 16 Jan 2026 18:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.603986
- Title: ShapeR: Robust Conditional 3D Shape Generation from Casual Captures
- Title(参考訳): ShapeR:カジュアルキャプチャーによるロバスト条件3次元形状生成
- Authors: Yawar Siddiqui, Duncan Frost, Samir Aroudj, Armen Avetisyan, Henry Howard-Jenkins, Daniel DeTone, Pierre Moulon, Qirui Wu, Zhengqin Li, Julian Straub, Richard Newcombe, Jakob Engel,
- Abstract要約: そこで本研究では, カジュアルな3次元オブジェクト形状生成手法であるShapeRを提案する。
既製の視覚慣性SLAM, 3次元検出アルゴリズム, および視覚言語モデルを用いて, 各オブジェクトに対して, スパースSLAM点の集合, 多視点画像, 機械生成キャプションを抽出する。
これらのモダリティを効果的に条件付けるように訓練された整流流変圧器は、高忠実度メートル法3D形状を生成する。
- 参考スコア(独自算出の注目度): 16.658667897650506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D shape generation have achieved impressive results, but most existing methods rely on clean, unoccluded, and well-segmented inputs. Such conditions are rarely met in real-world scenarios. We present ShapeR, a novel approach for conditional 3D object shape generation from casually captured sequences. Given an image sequence, we leverage off-the-shelf visual-inertial SLAM, 3D detection algorithms, and vision-language models to extract, for each object, a set of sparse SLAM points, posed multi-view images, and machine-generated captions. A rectified flow transformer trained to effectively condition on these modalities then generates high-fidelity metric 3D shapes. To ensure robustness to the challenges of casually captured data, we employ a range of techniques including on-the-fly compositional augmentations, a curriculum training scheme spanning object- and scene-level datasets, and strategies to handle background clutter. Additionally, we introduce a new evaluation benchmark comprising 178 in-the-wild objects across 7 real-world scenes with geometry annotations. Experiments show that ShapeR significantly outperforms existing approaches in this challenging setting, achieving an improvement of 2.7x in Chamfer distance compared to state of the art.
- Abstract(参考訳): 近年の3次元形状生成の進歩は目覚ましい成果を上げているが、既存のほとんどの手法は、クリーンで、隠蔽され、よく区切られた入力に依存している。
このような状況が現実のシナリオで満たされることはめったにない。
そこで本研究では, カジュアルな3次元オブジェクト形状生成手法であるShapeRを提案する。
画像シーケンスが与えられた場合、既製の視覚慣性SLAM、3D検出アルゴリズム、視覚言語モデルを用いて、各オブジェクトに対して、スパースSLAM点の集合、複数ビュー画像、機械生成キャプションを抽出する。
これらのモダリティを効果的に条件付けるように訓練された整流流変圧器は、高忠実度メートル法3D形状を生成する。
カジュアルにキャプチャされたデータの課題に対するロバスト性を確保するために、オンザフライのコンポジション強化、オブジェクトとシーンレベルのデータセットにまたがるカリキュラムトレーニングスキーム、背景の散らばりを処理する戦略など、さまざまな手法を用いている。
さらに,7つの実世界のシーンに幾何アノテーションを付加した178個の被写体を対象とする新しい評価ベンチマークを導入する。
実験の結果、ShapeRはこの挑戦的な環境で既存のアプローチを著しく上回り、シャンファー距離の2.7倍の改善を実現した。
関連論文リスト
- HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - Robust 3D Shape Reconstruction in Zero-Shot from a Single Image in the Wild [22.82439286651921]
本研究では,3次元形状復元に特化して設計された分割と再構成を統合した統合回帰モデルを提案する。
また、オブジェクト、オクローダ、バックグラウンドの幅広いバリエーションをシミュレートするスケーラブルなデータ合成パイプラインも導入しています。
我々の合成データのトレーニングにより,提案モデルは実世界の画像に対して最先端のゼロショット結果が得られる。
論文 参考訳(メタデータ) (2024-03-21T16:40:10Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - LASA: Instance Reconstruction from Real Scans using A Large-scale
Aligned Shape Annotation Dataset [17.530432165466507]
本稿では,新しいクロスモーダル形状再構成法とOccGOD法を提案する。
本手法は,インスタンスレベルのシーン再構成と3次元オブジェクト検出の両タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-19T18:50:10Z) - Robust 3D Tracking with Quality-Aware Shape Completion [67.9748164949519]
そこで本研究では,高密度および完全点の雲からなる合成対象表現について,ロバストな3次元追跡のための形状完備化により正確に表現する。
具体的には, 形状が整ったボキセル化3次元追跡フレームワークを設計し, ノイズのある歴史的予測の悪影響を軽減するために, 品質に配慮した形状完備化機構を提案する。
論文 参考訳(メタデータ) (2023-12-17T04:50:24Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。