論文の概要: Pixel-Perfect Visual Geometry Estimation
- arxiv url: http://arxiv.org/abs/2601.05246v1
- Date: Thu, 08 Jan 2026 18:59:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.356535
- Title: Pixel-Perfect Visual Geometry Estimation
- Title(参考訳): 画素効率のよいビジュアル幾何推定
- Authors: Gangwei Xu, Haotong Lin, Hongcheng Luo, Haiyang Sun, Bing Wang, Guang Chen, Sida Peng, Hangjun Ye, Xin Yang,
- Abstract要約: 高品質で空飛ぶピクセルフリーの点雲を予測できる画素完全視覚幾何学モデルを提案する。
本モデルは,すべての生成単分子およびビデオ深度推定モデルの中で最高の性能を達成している。
- 参考スコア(独自算出の注目度): 40.241009117140514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering clean and accurate geometry from images is essential for robotics and augmented reality. However, existing geometry foundation models still suffer severely from flying pixels and the loss of fine details. In this paper, we present pixel-perfect visual geometry models that can predict high-quality, flying-pixel-free point clouds by leveraging generative modeling in the pixel space. We first introduce Pixel-Perfect Depth (PPD), a monocular depth foundation model built upon pixel-space diffusion transformers (DiT). To address the high computational complexity associated with pixel-space diffusion, we propose two key designs: 1) Semantics-Prompted DiT, which incorporates semantic representations from vision foundation models to prompt the diffusion process, preserving global semantics while enhancing fine-grained visual details; and 2) Cascade DiT architecture that progressively increases the number of image tokens, improving both efficiency and accuracy. To further extend PPD to video (PPVD), we introduce a new Semantics-Consistent DiT, which extracts temporally consistent semantics from a multi-view geometry foundation model. We then perform reference-guided token propagation within the DiT to maintain temporal coherence with minimal computational and memory overhead. Our models achieve the best performance among all generative monocular and video depth estimation models and produce significantly cleaner point clouds than all other models.
- Abstract(参考訳): 画像からクリーンで正確な幾何学を復元することは、ロボット工学と拡張現実にとって不可欠である。
しかし、既存の幾何学基礎モデルは依然として飛行ピクセルや細部の詳細の喪失に苦しめられている。
本稿では,画素空間における生成的モデリングを活用することにより,高品質で飛行可能な点雲を予測できる画素完全視覚幾何学モデルを提案する。
まず,ピクセル空間拡散変換器 (DiT) 上に構築した単分子深度基礎モデルである Pixel-Perfect Depth (PPD) を紹介する。
画素空間拡散に伴う計算複雑性に対処するため、我々は2つの重要な設計を提案する。
1) セマンティックス・プロンプテッドDiTは、視覚基盤モデルからのセマンティック表現を取り入れ、拡散プロセスの促進、グローバルなセマンティクスの保存、そしてきめ細かい視覚的詳細の強化を図っている。
2) 画像トークンの数を徐々に増加させ,効率と精度を向上するカスケードDiTアーキテクチャ。
PPDをビデオ(PPVD)に拡張するために,多視点幾何学基礎モデルから時間的に一貫した意味論を抽出するセマンティックス・一貫性のDiTを導入する。
次に、DiT内で参照誘導トークンの伝搬を行い、時間的コヒーレンスを最小限の計算およびメモリオーバーヘッドで維持する。
本モデルでは, 生成単分子およびビデオ深度推定モデルで最高の性能を示し, 他のモデルよりもかなりクリーンな点雲を生成する。
関連論文リスト
- Blur2Sharp: Human Novel Pose and View Synthesis with Generative Prior Refinement [6.91111219679588]
Blur2Sharpは、3D対応ニューラルレンダリングと拡散モデルを統合して、シャープで幾何学的に一貫した新しいビュー画像を生成する新しいフレームワークである。
まず、人間のNeRFモデルを用いて、ターゲットポーズのための幾何学的コヒーレントなマルチビューレンダリングを生成し、3次元構造ガイダンスを明示的に符号化する。
我々はさらに、階層的特徴融合により視覚的品質を向上し、パラメトリックSMPLモデルから抽出したテクスチャ、正常、セマンティック先行を取り入れ、グローバルコヒーレンスと局所的詳細精度を同時に改善する。
論文 参考訳(メタデータ) (2025-12-09T03:49:12Z) - PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。
オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。
ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文 参考訳(メタデータ) (2025-11-25T18:59:25Z) - Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers [45.701222598522456]
Pixel-Perfect Depthはピクセル空間拡散生成に基づく単眼深度推定モデルである。
本モデルは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成している。
論文 参考訳(メタデータ) (2025-10-08T17:59:33Z) - UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting [64.31900521467362]
既存の事前学習方法は、オブジェクトレベルとシーンレベルの両方の点群に対して等しく有効である。
UniPre3Dは,任意のスケールの点群やアーキテクチャの3Dモデルに対してシームレスに適用可能な,最初の統合事前学習手法である。
論文 参考訳(メタデータ) (2025-06-11T17:23:21Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。