論文の概要: S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models
- arxiv url: http://arxiv.org/abs/2603.17625v1
- Date: Wed, 18 Mar 2026 11:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.672642
- Title: S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models
- Title(参考訳): S-VGGT:スケーラブルな3次元基礎モデルのための構造対応サブステージ分解
- Authors: Xinze Li, Pengxu Chen, Yiyuan Wang, Weifeng Su, Wentao Cheng,
- Abstract要約: フィードフォワード3Dファンデーションモデルは、グローバルな注目によって導入された二次計算コストという、大きな課題に直面している。
構造フレームレベルでの冗長性に対処する新しいアプローチである textbfS-VGGT を導入する。
S-VGGTは完全にトークンレベルの加速法であり、複雑なスピードアップにシームレスに組み合わせることができる。
- 参考スコア(独自算出の注目度): 15.408916900664783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Feed-forward 3D foundation models face a key challenge: the quadratic computational cost introduced by global attention, which severely limits scalability as input length increases. Concurrent acceleration methods, such as token merging, operate at the token level. While they offer local savings, the required nearest-neighbor searches introduce undesirable overhead. Consequently, these techniques fail to tackle the fundamental issue of structural redundancy dominant in dense capture data. In this work, we introduce \textbf{S-VGGT}, a novel approach that addresses redundancy at the structural frame level, drastically shifting the optimization focus. We first leverage the initial features to build a dense scene graph, which characterizes structural scene redundancy and guides the subsequent scene partitioning. Using this graph, we softly assign frames to a small number of subscenes, guaranteeing balanced groups and smooth geometric transitions. The core innovation lies in designing the subscenes to share a common reference frame, establishing a parallel geometric bridge that enables independent and highly efficient processing without explicit geometric alignment. This structural reorganization provides strong intrinsic acceleration by cutting the global attention cost at its source. Crucially, S-VGGT is entirely orthogonal to token-level acceleration methods, allowing the two to be seamlessly combined for compounded speedups without compromising reconstruction fidelity. Code is available at https://github.com/Powertony102/S-VGGT.
- Abstract(参考訳): フィードフォワード3Dファンデーションモデルは、グローバルアテンションによって導入された2次計算コストによって、入力長が増加するにつれてスケーラビリティが著しく制限されるという、大きな課題に直面している。
トークンマージのような同時加速法はトークンレベルで動作する。
ローカルな貯蓄を提供するが、最寄りの検索は望ましくないオーバーヘッドをもたらす。
その結果、これらの手法は、高密度キャプチャーデータに支配的な構造的冗長性の根本的な問題に対処することができない。
本稿では,構造的フレームレベルでの冗長性に対処し,最適化の焦点を劇的にシフトさせる新しいアプローチである \textbf{S-VGGT} を紹介する。
まず、初期特徴を活用して、構造的シーンの冗長性を特徴付ける高密度シーングラフを構築し、その後のシーン分割を導く。
このグラフを用いて、フレームを少数のサブシーンにソフトに割り当て、バランスの取れたグループと滑らかな幾何学的遷移を保証する。
中心となる革新は、共通参照フレームを共有するためにサブシーンを設計することであり、明示的な幾何学的アライメントを伴わずに独立かつ高効率な処理を可能にする平行幾何学的ブリッジを確立することである。
この構造的再構成は、その源泉におけるグローバルアテンションコストを削減し、本質的な強力な加速を提供する。
重要な点として、S-VGGTはトークンレベルの加速度法と完全に直交しており、コンプレックスされたスピードアップに対して両者をシームレスに組み合わせることができる。
コードはhttps://github.com/Powertony102/S-VGGTで入手できる。
関連論文リスト
- Speed3R: Sparse Feed-forward 3D Reconstruction Models [15.534969350839788]
我々は,Structure-from-Motionのコア原理にインスパイアされた,エンドツーエンドのトレーニング可能なモデルであるSpeed3Rを紹介する。
Speed3Rは、圧縮ブランチが選択ブランチを導く前に粗いコンテキストを生成するデュアルブランチアテンション機構を備えている。
この戦略は従来のキーポイントマッチングの効率を模倣し、1000ビューシーケンスでの12.4倍の推論速度を達成する。
論文 参考訳(メタデータ) (2026-03-09T07:46:51Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - Fast-SAM3D: 3Dfy Anything in Images but Faster [65.17322167628367]
SAM3Dは複雑なシーンからスケーラブルでオープンな3D再構築を可能にする。
textbfFast-SAM3Dは、計算を瞬時生成の複雑さと整合させる、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-02-05T04:27:59Z) - StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
論文 参考訳(メタデータ) (2026-01-28T13:34:44Z) - LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - CAGE: Continuity-Aware edGE Network Unlocks Robust Floorplan Reconstruction [24.09888364478496]
我々は,点-雲密度マップから直接ベクトルフロアプランを再構築する堅牢なフレームワークであるCAGEを提案する。
CAGEは最先端のパフォーマンスを達成し、F1スコアは99.1%(部屋)、91.7%(コーナー)、89.3%(角度)である。
論文 参考訳(メタデータ) (2025-09-18T22:10:37Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - Exploring Motion Ambiguity and Alignment for High-Quality Video Frame
Interpolation [46.02120172459727]
本稿では,GTに近い中間フレームを可能な限り再構築する要件を緩和することを提案する。
本研究では,テクスチャ整合性損失 (TCL) を補間されたコンテンツが,与えられたフレーム内でのテクスチャ整合性損失 (TCL) と類似した構造を維持するべきであるという仮定に基づいて開発する。
論文 参考訳(メタデータ) (2022-03-19T10:37:06Z) - Dense Non-Rigid Structure from Motion: A Manifold Viewpoint [162.88686222340962]
Non-Rigid Structure-from-Motion (NRSfM) 問題は、複数のフレームにまたがる2次元特徴対応から変形物体の3次元形状を復元することを目的としている。
提案手法は,ノイズに対する精度,スケーラビリティ,堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2020-06-15T09:15:54Z) - 3D Sketch-aware Semantic Scene Completion via Semi-supervised Structure
Prior [50.73148041205675]
セマンティック・シーン・コンプリート(SSC)タスクの目標は、単一視点で観察することで、ボリューム占有率とシーン内のオブジェクトの意味ラベルの完全な3Dボクセル表現を同時に予測することである。
低解像度のボクセル表現で深度情報を埋め込む新しい幾何学的手法を提案する。
提案手法は,SSCフレームワークからの深度特徴学習よりも有効である。
論文 参考訳(メタデータ) (2020-03-31T09:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。