論文の概要: Speed3R: Sparse Feed-forward 3D Reconstruction Models
- arxiv url: http://arxiv.org/abs/2603.08055v1
- Date: Mon, 09 Mar 2026 07:46:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.629637
- Title: Speed3R: Sparse Feed-forward 3D Reconstruction Models
- Title(参考訳): Speed3R:スパースフィードフォワード3次元再構成モデル
- Authors: Weining Ren, Xiao Tan, Kai Han,
- Abstract要約: 我々は,Structure-from-Motionのコア原理にインスパイアされた,エンドツーエンドのトレーニング可能なモデルであるSpeed3Rを紹介する。
Speed3Rは、圧縮ブランチが選択ブランチを導く前に粗いコンテキストを生成するデュアルブランチアテンション機構を備えている。
この戦略は従来のキーポイントマッチングの効率を模倣し、1000ビューシーケンスでの12.4倍の推論速度を達成する。
- 参考スコア(独自算出の注目度): 15.534969350839788
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While recent feed-forward 3D reconstruction models accelerate 3D reconstruction by jointly inferring dense geometry and camera poses in a single pass, their reliance on dense attention imposes a quadratic complexity, creating a prohibitive computational bottleneck that severely limits inference speed. To resolve this, we introduce Speed3R, an end-to-end trainable model inspired by the core principle of Structure-from-Motion: that a sparse set of keypoints is sufficient for robust pose estimation. Speed3R features a dual-branch attention mechanism where a compression branch creates a coarse contextual prior to guide a selection branch, which performs fine-grained attention only on the most informative image tokens. This strategy mimics the efficiency of traditional keypoint matching, achieving a remarkable 12.4x inference speedup on 1000-view sequences, while introducing a minimal, controlled trade-off in geometric accuracy. Validated on standard benchmarks with both VGGT and $π^3$ backbones, our method delivers high-quality reconstructions at a fraction of computational cost, paving the way for efficient large-scale scene modeling.
- Abstract(参考訳): 最近のフィードフォワード3次元再構成モデルでは、密集した幾何学とカメラのポーズを1つのパスで同時推論することで3次元再構成を加速するが、密集した注意への依存は二次的な複雑さを伴い、推論速度を著しく制限する禁制的な計算ボトルネックを生み出す。
これを解決するために,我々は,Structure-from-Motion(Structure-from-Motion)の原理にインスパイアされたエンドツーエンドのトレーニング可能なモデルであるSpeed3Rを紹介した。
Speed3Rは、圧縮ブランチが選択ブランチを案内する前に粗いコンテキストを生成するデュアルブランチアテンション機構を備えており、最も情報性の高い画像トークンに対してのみ微細なアテンションを行う。
この戦略は従来のキーポイントマッチングの効率を模倣し、1000ビューシーケンスで12.4倍の推論速度を達成すると同時に、幾何学的精度で最小限に制御されたトレードオフを導入する。
提案手法は,VGGTとπ^3$バックボーンを併用した標準ベンチマークで検証し,計算コストのごく一部で高品質な再構成を実現し,大規模シーンモデリングの効率化を図る。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction [24.582810014546524]
ハイブリッド表現上に構築された効率的なオンザフライ再構築フレームワークであるPLANingを提案する。
Planing は PGSR よりも 18.52% の高密度メッシュ Chamfer-L2 を改善し、ARTDECO を 1.31 dB PSNR で上回り、ScanNetV2 のシーンを100秒以内に再構築する。
PLANingは、大規模なシーンモデリングやシミュレーション可能な環境を具体化するなど、幅広いダウンストリームアプリケーションに適している。
論文 参考訳(メタデータ) (2026-01-29T17:47:26Z) - SwiftVGGT: A Scalable Visual Geometry Grounded Transformer for Large-Scale Scenes [30.52500975808177]
大規模シーンにおける3次元再構成は3次元知覚の基本的な課題である。
既存の手法では、速度を優先し、低品質な結果を生成するか、推論時間の遅いコストで高品質な再構築を実現する。
高品質な高密度3次元再構成を保ちながら、推論時間を大幅に短縮するトレーニング不要なSwiftVGGTを提案する。
論文 参考訳(メタデータ) (2025-11-23T05:03:49Z) - Wonder3D++: Cross-domain Diffusion for High-fidelity 3D Generation from a Single Image [68.55613894952177]
単一ビュー画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である textbfWonder3D++ を導入する。
マルチビュー正規写像と対応するカラー画像を生成するクロスドメイン拡散モデルを提案する。
最後に,多視点2次元表現から高品質な表面を粗い方法でわずか3ドル程度で駆動するカスケード3次元メッシュ抽出アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-03T17:24:18Z) - PRGCN: A Graph Memory Network for Cross-Sequence Pattern Reuse in 3D Human Pose Estimation [18.771349697842947]
本稿では、パターン検索と適応の問題としてポーズ推定を形式化する新しいフレームワークであるパターン再利用グラフ変換ネットワーク(PRGCN)を紹介する。
PRGCNのコアとなるグラフメモリバンクは、リレーショナルグラフとして符号化された一連のコンパクトなポーズプロトタイプを学習し、格納する。
PRGCNは,それぞれ37.1mm,13.4mmのMPJPEを達成し,クロスドメインの一般化能力の向上を図っている。
論文 参考訳(メタデータ) (2025-10-22T11:12:07Z) - FastVGGT: Training-Free Acceleration of Visual Geometry Transformer [83.67766078575782]
VGGTは最先端のフィードフォワード視覚幾何学モデルである。
本稿では,VGGTの高速化のためのトレーニングフリーメカニズムを用いて,3次元領域におけるトークンのマージを利用したFastVGGTを提案する。
1000の入力画像により、FastVGGTはVGGTの4倍の高速化を実現し、長いシーケンスシナリオにおけるエラーの蓄積を緩和する。
論文 参考訳(メタデータ) (2025-09-02T17:54:21Z) - iLRM: An Iterative Large 3D Reconstruction Model [34.69940725179257]
本稿では,反復的改良機構を用いて3次元ガウス表現を生成する反復的大規模3次元再構成モデル(iLRM)を提案する。
RE10KやDL3DVといった広く使われているデータセットの実験結果から、iLRMは復元品質と速度の両方で既存の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2025-07-31T06:33:07Z) - InstantSplat: Sparse-view Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは,光速でスパークビュー3Dシーンを再現する新しい手法である。
InstantSplatでは,3Dシーン表現とカメラポーズを最適化する,自己管理フレームワークを採用している。
3D-GSの従来のSfMと比較して、30倍以上の再現を達成し、視覚的品質(SSIM)を0.3755から0.7624に改善する。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging [7.601695814245209]
本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
論文 参考訳(メタデータ) (2023-06-20T06:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。