論文の概要: Multi-view Pyramid Transformer: Look Coarser to See Broader
- arxiv url: http://arxiv.org/abs/2512.07806v1
- Date: Mon, 08 Dec 2025 18:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.006763
- Title: Multi-view Pyramid Transformer: Look Coarser to See Broader
- Title(参考訳): マルチビューピラミッドトランス
- Authors: Gyeongjin Kang, Seungkwon Yang, Seungtae Nam, Younggeun Lee, Jungwoo Kim, Eunbyung Park,
- Abstract要約: MVP(Multi-view Pyramid Transformer)はスケーラブルなマルチビュートランスアーキテクチャである。
MVPは、数十から数百の画像から1回のフォワードパスで、大きな3Dシーンを直接再構築する。
- 参考スコア(独自算出の注目度): 21.61202275514641
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose Multi-view Pyramid Transformer (MVP), a scalable multi-view transformer architecture that directly reconstructs large 3D scenes from tens to hundreds of images in a single forward pass. Drawing on the idea of ``looking broader to see the whole, looking finer to see the details," MVP is built on two core design principles: 1) a local-to-global inter-view hierarchy that gradually broadens the model's perspective from local views to groups and ultimately the full scene, and 2) a fine-to-coarse intra-view hierarchy that starts from detailed spatial representations and progressively aggregates them into compact, information-dense tokens. This dual hierarchy achieves both computational efficiency and representational richness, enabling fast reconstruction of large and complex scenes. We validate MVP on diverse datasets and show that, when coupled with 3D Gaussian Splatting as the underlying 3D representation, it achieves state-of-the-art generalizable reconstruction quality while maintaining high efficiency and scalability across a wide range of view configurations.
- Abstract(参考訳): 本研究では,大規模3Dシーンを複数枚から数百枚まで1回の前方通過で直接再構成するスケーラブルなマルチビューピラミッドトランスアーキテクチャであるMulti-view Pyramid Transformer (MVP)を提案する。
MVPは2つのコア設計原則に基づいて構築されています。
1) 局所的視点からグループ,究極的にはシーン全体に至るまで,モデルの視点を徐々に広げる地域-言語間階層。
2) 詳細な空間表現から始まり,それらをコンパクトで情報密度の高いトークンに段階的に集約する,微粒で粗いビュー内階層。
この二重階層は計算効率と表現豊かさの両方を実現し、大規模で複雑なシーンの高速な再構築を可能にする。
MVPを多種多様なデータセットで検証し、基礎となる3次元表現として3次元ガウススプラッティングと組み合わせることで、最先端の汎用化可能な再構築品質を実現し、幅広いビュー構成における高い効率性とスケーラビリティを維持できることを示す。
関連論文リスト
- MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion [4.679314646805623]
3Dセグメンテーションは、高密度なレイアウトとマルチスケールオブジェクトを持つ複雑なシーンを理解するために重要である。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
本稿では,階層的な画像誘導型3次元セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-07T15:15:52Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - LVT: Large-Scale Scene Reconstruction via Local View Transformers [13.074828320190425]
Local View Transformer (LVT) は大規模なシーン再構成と新しいビュー合成アーキテクチャである。
空間的近傍のビューは、遠方からのビューよりも、局所的なシーン構成に関する有用な信号を提供するという知見に触発され、我々のモデルは、各ビュー周辺のローカルなエリアで全ての情報を処理します。
我々は、このモデルを色と不透明度の両方のビュー依存性を含む3次元ガウスシーン表現にデコードする。
論文 参考訳(メタデータ) (2025-09-29T16:24:34Z) - Uni3R: Unified 3D Reconstruction and Semantic Understanding via Generalizable Gaussian Splatting from Unposed Multi-View Images [36.084665557986156]
スパース2Dビューから3Dシーンを再構築し、意味的に解釈することは、コンピュータビジョンの根本的な課題である。
本稿では,オープンな語彙意味論に富んだ統一された3次元シーン表現を共同で再構築する,新しいフィードフォワードフレームワークであるUni3Rを紹介する。
論文 参考訳(メタデータ) (2025-08-05T16:54:55Z) - Focus on Neighbors and Know the Whole: Towards Consistent Dense Multiview Text-to-Image Generator for 3D Creation [64.07560335451723]
CoSERは、テキストから3Dへの一貫した高密度テキスト・ツー・イメージ・ジェネレータである。
隣人のビューコヒーレンスを巧みに学習することで効率と品質を両立させる。
物理原理によって明確に定義された運動経路に沿って情報を集約し、詳細を洗練させる。
論文 参考訳(メタデータ) (2024-08-23T15:16:01Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文 参考訳(メタデータ) (2022-10-19T17:55:13Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - VoRTX: Volumetric 3D Reconstruction With Transformers for Voxelwise View
Selection and Fusion [68.68537312256144]
VoRTXは、多視点機能融合のためのトランスフォーマーを用いた、エンドツーエンドのボリューム3D再構成ネットワークである。
我々は、ScanNet上でモデルをトレーニングし、最先端の手法よりも優れた再構築を実現することを示す。
論文 参考訳(メタデータ) (2021-12-01T02:18:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。