論文の概要: LSRM: High-Fidelity Object-Centric Reconstruction via Scaled Context Windows
- arxiv url: http://arxiv.org/abs/2604.05182v1
- Date: Mon, 06 Apr 2026 21:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.498537
- Title: LSRM: High-Fidelity Object-Centric Reconstruction via Scaled Context Windows
- Title(参考訳): LSRM:スケールドコンテキストウィンドウによる高忠実度オブジェクト中心再構成
- Authors: Zhengqin Li, Cheng Zhang, Jakob Engel, Zhao Dong,
- Abstract要約: 本研究では,大規模スパース再構成モデルを導入し,拡張型コンテクストウィンドウがフィードフォワード3D再構成に与える影響について検討する。
アクティブなオブジェクトや画像トークンの数を大幅に増やすことで、コンテキストウィンドウを拡大することで、このギャップを著しく狭め、高忠実度な3Dオブジェクト再構成と逆レンダリングを可能にします。
- 参考スコア(独自算出の注目度): 10.300202521638274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Large Sparse Reconstruction Model to study how scaling transformer context windows impacts feed-forward 3D reconstruction. Although recent object-centric feed-forward methods deliver robust, high-quality reconstruction, they still lag behind dense-view optimization in recovering fine-grained texture and appearance. We show that expanding the context window -- by substantially increasing the number of active object and image tokens -- remarkably narrows this gap and enables high-fidelity 3D object reconstruction and inverse rendering. To scale effectively, we adapt native sparse attention in our architecture design, unlocking its capacity for 3D reconstruction with three key contributions: (1) an efficient coarse-to-fine pipeline that focuses computation on informative regions by predicting sparse high-resolution residuals; (2) a 3D-aware spatial routing mechanism that establishes accurate 2D-3D correspondences using explicit geometric distances rather than standard attention scores; and (3) a custom block-aware sequence parallelism strategy utilizing an All-gather-KV protocol to balance dynamic, sparse workloads across GPUs. As a result, LSRM handles 20x more object tokens and >2x more image tokens than prior state-of-the-art (SOTA) methods. Extensive evaluations on standard novel-view synthesis benchmarks show substantial gains over the current SOTA, yielding 2.5 dB higher PSNR and 40% lower LPIPS. Furthermore, when extending LSRM to inverse rendering tasks, qualitative and quantitative evaluations on widely-used benchmarks demonstrate consistent improvements in texture and geometry details, achieving an LPIPS that matches or exceeds that of SOTA dense-view optimization methods. Code and model will be released on our project page.
- Abstract(参考訳): 本研究では,大規模スパース再構成モデルを導入し,拡張型コンテクストウィンドウがフィードフォワード3D再構成に与える影響について検討する。
最近のオブジェクト中心フィードフォワード法は、堅牢で高品質な再構築を実現するが、きめ細かいテクスチャや外観を回復する際には、高精細度ビューの最適化に遅れがある。
アクティブなオブジェクトや画像トークンの数を大幅に増やすことで、コンテキストウィンドウを拡大することで、このギャップを著しく狭め、高忠実度な3Dオブジェクト再構成と逆レンダリングを可能にします。
アーキテクチャ設計において,本手法を効果的に拡張するために,(1)高分解能残差を予測して情報領域に計算を集中させる効率的な粗大なパイプライン,(2)標準の注目スコアではなく明示的な幾何学的距離を用いて正確な2D-3D対応を確立する3D空間ルーティング機構,(3)GPU間でのダイナミックかつスパースなワークロードのバランスをとるためにAll-gather-KVプロトコルを利用した独自のブロック認識シーケンス戦略,の3つの重要な貢献によって,ネイティブスパークの注意を3次元再構築する。
その結果、LSRMは従来のSOTA(State-of-the-art)メソッドよりも20倍のオブジェクトトークンと2倍のイメージトークンを処理している。
標準ノベルビュー合成ベンチマークの大規模な評価では、現在のSOTAよりも大幅に向上し、PSNRが2.5dB、LPIPSが40%低下した。
さらに、LSRMを逆レンダリングタスクに拡張する場合、広く使用されているベンチマークの質的および定量的評価により、テクスチャと幾何学的詳細が一貫した改善が示され、SOTAの密度ビュー最適化手法と一致するかそれ以上のLPIPSが達成される。
コードとモデルはプロジェクトのページでリリースされます。
関連論文リスト
- AMB3R: Accurate Feed-forward Metric-scale 3D Reconstruction with Backend [18.645700170943975]
AMB3Rは、計量スケールで密集した3次元再構成のためのフィードフォワードモデルである。
AMB3Rは運動から非平衡視覚計測(オンライン)や大規模構造へシームレスに拡張可能であることを示す。
論文 参考訳(メタデータ) (2025-11-25T14:23:04Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - GauSSmart: Enhanced 3D Reconstruction through 2D Foundation Models and Geometric Filtering [50.675710727721786]
2次元基礎モデルと3次元ガウススプラッティング再構成をブリッジするハイブリッド手法であるGauSSmartを提案する。
提案手法は,凸フィルタリングや意味的特徴監視など,確立した2次元コンピュータビジョン技術を統合している。
GauSSmartは既存のGaussian Splattingよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-16T03:38:26Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。