論文の概要: Fast-SAM3D: 3Dfy Anything in Images but Faster
- arxiv url: http://arxiv.org/abs/2602.05293v1
- Date: Thu, 05 Feb 2026 04:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.759883
- Title: Fast-SAM3D: 3Dfy Anything in Images but Faster
- Title(参考訳): Fast-SAM3D:画像の3Dフィッシングは速いが速い
- Authors: Weilun Feng, Mingqiang Wu, Zhiliang Chen, Chuanguang Yang, Haotong Qin, Yuqi Li, Xiaokun Liu, Guoxin Fan, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu,
- Abstract要約: SAM3Dは複雑なシーンからスケーラブルでオープンな3D再構築を可能にする。
textbfFast-SAM3Dは、計算を瞬時生成の複雑さと整合させる、トレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 65.17322167628367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: SAM3D enables scalable, open-world 3D reconstruction from complex scenes, yet its deployment is hindered by prohibitive inference latency. In this work, we conduct the \textbf{first systematic investigation} into its inference dynamics, revealing that generic acceleration strategies are brittle in this context. We demonstrate that these failures stem from neglecting the pipeline's inherent multi-level \textbf{heterogeneity}: the kinematic distinctiveness between shape and layout, the intrinsic sparsity of texture refinement, and the spectral variance across geometries. To address this, we present \textbf{Fast-SAM3D}, a training-free framework that dynamically aligns computation with instantaneous generation complexity. Our approach integrates three heterogeneity-aware mechanisms: (1) \textit{Modality-Aware Step Caching} to decouple structural evolution from sensitive layout updates; (2) \textit{Joint Spatiotemporal Token Carving} to concentrate refinement on high-entropy regions; and (3) \textit{Spectral-Aware Token Aggregation} to adapt decoding resolution. Extensive experiments demonstrate that Fast-SAM3D delivers up to \textbf{2.67$\times$} end-to-end speedup with negligible fidelity loss, establishing a new Pareto frontier for efficient single-view 3D generation. Our code is released in https://github.com/wlfeng0509/Fast-SAM3D.
- Abstract(参考訳): SAM3Dは複雑なシーンからスケーラブルでオープンな3D再構築を可能にする。
そこで本研究では,その推論力学を解析し,この文脈における一般化加速度戦略の脆さを明らかにする。
これらの故障は, 形状とレイアウトの運動学的特異性, テクスチャーリファインメントの内在的空間性, およびジオメトリー間のスペクトル分散など, パイプライン固有のマルチレベルな \textbf{heterogeneity} を無視することに起因する。
これを解決するために,計算を瞬時に生成する複雑性に動的に整合させるトレーニングフリーのフレームワークである \textbf{Fast-SAM3D} を提案する。
提案手法は,(1)高エントロピー領域に改良を集中させるため,(2)高エントロピー領域に,(2)高エントロピー領域に改良を集中させるため,(2)高エントロピー領域に構造的進化を分離するために,(2)高テンポラリ領域に適応するために,(2)高テンポラリ領域に展開する,という3つの異種性認識機構を統合する。
大規模な実験により、Fast-SAM3Dは無視できる忠実さの損失を伴うエンドツーエンドのスピードアップを実現し、効率的なシングルビュー3D生成のための新しいパレートフロンティアを確立した。
私たちのコードはhttps://github.com/wlfeng0509/Fast-SAM3Dでリリースされています。
関連論文リスト
- StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - WorldWarp: Propagating 3D Geometry with Asynchronous Video Diffusion [78.20778143251171]
WorldWarpは、3D構造アンカーと2D生成ファインダを結合するフレームワークだ。
WorldWarpは、各ステップで3Dキャッシュを動的に更新することで、ビデオチャンク間の一貫性を維持する。
3Dロジックが構造をガイドし、拡散ロジックがテクスチャを完璧にすることで、最先端の忠実さを実現する。
論文 参考訳(メタデータ) (2025-12-22T18:53:50Z) - Fast3Dcache: Training-free 3D Geometry Synthesis Acceleration [16.87269278147738]
我々は3次元拡散推論のためのトレーニング不要な幾何認識キャッシュフレームワークであるFast3Dcacheを提案する。
提案手法は最大27.12%のスピードアップと54.8%のFLOPの削減を実現し,チャンファー距離 (2.48%) とFスコア (1.95%) で測定された幾何学的品質の低下を最小限に抑えた。
論文 参考訳(メタデータ) (2025-11-27T15:13:32Z) - LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning [26.88556500272625]
非符号距離場(UDF)に基づく新しい3次元変分オートエンコーダフレームワークを提案する。
私たちの中心となるイノベーションは、UDFを統一サブボリュームであるUBlockに分割することで処理する、ローカルからグローバルなアーキテクチャです。
再現精度と生成品質の両面での最先端性能を実証し,表面の滑らかさと幾何学的柔軟性を向上した。
論文 参考訳(メタデータ) (2025-11-13T07:34:43Z) - UniSplat: Unified Spatio-Temporal Fusion via 3D Latent Scaffolds for Dynamic Driving Scene Reconstruction [26.278318116942526]
We present UniSplat, a feed-forward framework that learns robust dynamic scene reconstruction through unified latent-temporal fusion。
実世界のデータセットの実験では、UniSplatが新しい視点で最先端の合成を実現し、オリジナルカメラのカバレッジ外の視点に対して堅牢で高品質なレンダリングを提供することを示した。
論文 参考訳(メタデータ) (2025-11-06T17:49:39Z) - Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - STDR: Spatio-Temporal Decoupling for Real-Time Dynamic Scene Rendering [15.873329633980015]
既存の3DGSに基づく動的再構成法は、しばしばtextbfSTDR(リアルタイムレンダリングのための空間結合デテンポラル)に悩まされる
実時間レンダリングのためのテキストbfSTDR (Spatio-coupling DeTemporal for Real-time rendering) を提案する。
論文 参考訳(メタデータ) (2025-05-28T14:26:41Z) - EvolvingGS: High-Fidelity Streamable Volumetric Video via Evolving 3D Gaussian Representation [14.402479944396665]
EvolvingGSは、まずターゲットフレームに合わせるためにガウスモデルを変形させ、最小点加算/減算で洗練する2段階戦略である。
漸進的に進化する表現の柔軟性のため,本手法はフレーム単位と時間単位の品質指標の両方で既存手法より優れている。
我々の手法は、特に複雑な人間のパフォーマンスを持つ拡張シーケンスにおいて、動的シーン再構成の最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-07T06:01:07Z) - T-3DGS: Removing Transient Objects for 3D Scene Reconstruction [83.05271859398779]
映像シーケンスにおける過渡的オブジェクトは、3Dシーン再構成の品質を著しく低下させる可能性がある。
我々は,ガウススプラッティングを用いた3次元再構成において,過渡的障害を頑健に除去する新しいフレームワークT-3DGSを提案する。
論文 参考訳(メタデータ) (2024-11-29T07:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。