論文の概要: HD-VGGT: High-Resolution Visual Geometry Transformer
- arxiv url: http://arxiv.org/abs/2603.27222v1
- Date: Sat, 28 Mar 2026 10:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.851738
- Title: HD-VGGT: High-Resolution Visual Geometry Transformer
- Title(参考訳): HD-VGGT:高分解能ビジュアル幾何変換器
- Authors: Tianrun Chen, Yuanqi Hu, Yidong Han, Hanjie Xu, Deyi Ji, Qi Zhu, Chunan Yu, Xin Zhang, Cheng Chen, Chaotao Ding, Ying Zang, Xuanfu Li, Jin Ma, Lanyun Zhu,
- Abstract要約: 高速で高解像度な3D再構成を実現するためのデュアルブランチアーキテクチャであるHD-VGGTを導入する。
低分解能分岐は粗大で一貫した幾何学を予測し、高分解能分岐は学習された機能アップサンプリングモジュールを通して詳細を洗練する。
不安定なトークンを扱うために,変圧器の早期に不確実な特徴を抑圧する特徴変調を提案する。
- 参考スコア(独自算出の注目度): 28.73190234129584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-resolution imagery is essential for accurate 3D reconstruction, as many geometric details only emerge at fine spatial scales. Recent feed-forward approaches, such as the Visual Geometry Grounded Transformer (VGGT), have demonstrated the ability to infer scene geometry from large collections of images in a single forward pass. However, scaling these models to high-resolution inputs remains challenging: the number of tokens in transformer architectures grows rapidly with both image resolution and the number of views, leading to prohibitive computational and memory costs. Moreover, we observe that visually ambiguous regions, such as repetitive patterns, weak textures, or specular surfaces, often produce unstable feature tokens that degrade geometric inference, especially at higher resolutions. We introduce HD-VGGT, a dual-branch architecture for efficient and robust high-resolution 3D reconstruction. A low-resolution branch predicts a coarse, globally consistent geometry, while a high-resolution branch refines details via a learned feature upsampling module. To handle unstable tokens, we propose Feature Modulation, which suppresses unreliable features early in the transformer. HD-VGGT leverages high-resolution images and supervision without full-resolution transformer costs, achieving state-of-the-art reconstruction quality.
- Abstract(参考訳): 高解像度画像は正確な3次元再構成には不可欠であり、多くの幾何学的詳細は空間的にのみ現れる。
Visual Geometry Grounded Transformer (VGGT)のような最近のフィードフォワードアプローチは、単一の前方通過で画像の大規模なコレクションからシーン幾何学を推測する能力を実証している。
しかし、これらのモデルを高解像度の入力にスケールすることは依然として困難であり、トランスフォーマーアーキテクチャにおけるトークンの数は画像解像度とビュー数の両方で急速に増加し、計算とメモリのコストが禁止される。
さらに、繰り返しパターン、弱いテクスチャ、または特異表面などの視覚的に不明瞭な領域は、特に高分解能で幾何学的推論を劣化させる不安定な特徴トークンをしばしば生成する。
高速で高解像度な3D再構成を実現するためのデュアルブランチアーキテクチャであるHD-VGGTを導入する。
低分解能分岐は粗大で一貫した幾何学を予測し、高分解能分岐は学習された機能アップサンプリングモジュールを通して詳細を洗練する。
不安定なトークンを扱うために,変圧器の早期に不確実な特徴を抑圧する特徴変調を提案する。
HD-VGGTは、高解像度の画像と監督をフル解像度のトランスフォーマーコストなしで利用し、最先端の再構築品質を達成する。
関連論文リスト
- LATTICE: Democratize High-Fidelity 3D Generation at Scale [27.310104395842075]
LATTICEは高忠実度3Dアセット生成のための新しいフレームワークである。
VoxSetは、3Dの資産を粗いボクセル格子に固定された潜在ベクトルのコンパクトな集合に圧縮する半構造化表現である。
提案手法のコアは単純だが,任意の解像度復号化,低コストトレーニング,フレキシブル推論スキームをサポートする。
論文 参考訳(メタデータ) (2025-11-24T03:22:19Z) - LoG3D: Ultra-High-Resolution 3D Shape Modeling via Local-to-Global Partitioning [26.88556500272625]
非符号距離場(UDF)に基づく新しい3次元変分オートエンコーダフレームワークを提案する。
私たちの中心となるイノベーションは、UDFを統一サブボリュームであるUBlockに分割することで処理する、ローカルからグローバルなアーキテクチャです。
再現精度と生成品質の両面での最先端性能を実証し,表面の滑らかさと幾何学的柔軟性を向上した。
論文 参考訳(メタデータ) (2025-11-13T07:34:43Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - RobustGS: Unified Boosting of Feedforward 3D Gaussian Splatting under Low-Quality Conditions [67.48495052903534]
本稿では,汎用的で効率的なマルチビュー機能拡張モジュールRobustGSを提案する。
各種の有害撮像条件下でのフィードフォワード3DGS法のロバスト性を大幅に向上させる。
RobustGSモジュールはプラグイン・アンド・プレイ方式で既存の事前訓練パイプラインにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-05T04:50:29Z) - SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling [79.56581753856452]
SparseFlexは、新しいスパース構造のアイソサーフェス表現で、レンダリング損失から最大10243ドルの解像度で、差別化可能なメッシュ再構築を可能にする。
SparseFlexは、高解像度で差別化可能なメッシュ再構成とレンダリングロスによる生成を可能にすることで、3D形状の表現とモデリングの最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-27T17:46:42Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。