Fugu-MT 論文翻訳(概要): VGGT: Visual Geometry Grounded Transformer

論文の概要: VGGT: Visual Geometry Grounded Transformer

arxiv url: http://arxiv.org/abs/2503.11651v1
Date: Fri, 14 Mar 2025 17:59:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.451817
Title: VGGT: Visual Geometry Grounded Transformer
Title（参考訳）: VGGT:ビジュアル幾何接地変圧器
Authors: Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny,
Abstract要約: VGGTは、シーンのすべての重要な3D属性を直接推論するフィードフォワードニューラルネットワークである。ネットワークは、複数の3Dタスクで最先端の結果を達成する。
参考スコア（独自算出の注目度）: 61.37669770946458
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present VGGT, a feed-forward neural network that directly infers all key 3D attributes of a scene, including camera parameters, point maps, depth maps, and 3D point tracks, from one, a few, or hundreds of its views. This approach is a step forward in 3D computer vision, where models have typically been constrained to and specialized for single tasks. It is also simple and efficient, reconstructing images in under one second, and still outperforming alternatives that require post-processing with visual geometry optimization techniques. The network achieves state-of-the-art results in multiple 3D tasks, including camera parameter estimation, multi-view depth estimation, dense point cloud reconstruction, and 3D point tracking. We also show that using pretrained VGGT as a feature backbone significantly enhances downstream tasks, such as non-rigid point tracking and feed-forward novel view synthesis. Code and models are publicly available at https://github.com/facebookresearch/vggt.
Abstract（参考訳）: VGGTは、カメラパラメータ、ポイントマップ、深度マップ、および3Dポイントトラックを含むシーンのキーとなる3D属性を直接推論するフィードフォワードニューラルネットワークである。このアプローチは、3Dコンピュータビジョンにおける一歩であり、モデルは通常、1つのタスクに制限され、特殊化されてきた。また、シンプルで効率的で、1秒未満で画像を再構成し、視覚幾何学の最適化技術による後処理を必要とする代替手段よりも優れている。このネットワークは,カメラパラメータ推定,多視点深度推定,高密度点雲再構成,3次元点追跡など,複数の3次元タスクにおいて最先端の結果を達成する。また,事前学習したVGGTを機能バックボーンとして使用すると,非剛性点追跡やフィードフォワード新規ビュー合成などの下流タスクが大幅に向上することを示す。コードとモデルはhttps://github.com/facebookresearch/vggt.comで公開されている。

関連論文リスト

Dynamic Point Maps: A Versatile Representation for Dynamic 3D Reconstruction [56.32589034046427]
本研究では,ダイナミックポイントマップ(DPM)を導入し,モーションセグメンテーション,シーンフロー推定,3次元物体追跡,2次元対応などの4次元タスクをサポートする標準点マップを拡張した。我々は,合成データと実データを組み合わせたDPM予測器を訓練し,映像深度予測,ダイナミックポイントクラウド再構成,3次元シーンフロー,オブジェクトポーズ追跡,最先端性能の達成など,様々なベンチマークで評価する。
論文参考訳（メタデータ） (2025-03-20T16:41:50Z)
TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文参考訳（メタデータ） (2024-07-08T13:28:47Z)
Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文参考訳（メタデータ） (2024-07-05T09:43:05Z)
Inverse Neural Rendering for Explainable Multi-Object Tracking [35.072142773300655]
我々はRGBカメラから3Dマルチオブジェクト追跡をEmphInverse Rendering (IR)問題として再放送した。我々は、本質的に形状と外観特性を歪ませる生成潜在空間上の画像損失を最適化する。本手法の一般化とスケーリング能力は,合成データのみから生成前を学習することで検証する。
論文参考訳（メタデータ） (2024-04-18T17:37:53Z)
PointSeg: A Training-Free Paradigm for 3D Scene Segmentation via Foundation Models [51.24979014650188]
我々は、市販の視覚基盤モデルを利用して、3Dシーン認識タスクに対処する学習自由パラダイムであるPointSegを提案する。 PointSegは正確な3Dプロンプトを取得してフレーム間で対応するピクセルを調整することで、任意の3Dシーンを分割することができる。 ScanNet、ScanNet++、KITTI-360データセット上の14.1$%、12.3$%、12.6$%のmAPは、最先端のトレーニングフリーモデルを大きく上回っている。
論文参考訳（メタデータ） (2024-03-11T03:28:20Z)
DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。本定式化は単眼および両眼の再建症例を円滑に統一することを示す。私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文参考訳（メタデータ） (2023-12-21T18:52:14Z)
3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-07T23:46:41Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
ParaNet: Deep Regular Representation for 3D Point Clouds [62.81379889095186]
ParaNetは、3Dポイントクラウドを表現するための新しいエンドツーエンドのディープラーニングフレームワークである。不規則な3D点雲を通常の2Dカラー画像に変換する。多視点投影とボキセル化に基づく従来の正規表現法とは異なり、提案した表現は微分可能で可逆である。
論文参考訳（メタデータ） (2020-12-05T13:19:55Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)
Pointwise Attention-Based Atrous Convolutional Neural Networks [15.499267533387039]
多数の点を効率的に扱うために,注目度に基づくアトラス畳み込みニューラルネットワークアーキテクチャを提案する。提案モデルは,3次元セマンティックセグメンテーションタスクにおいて,最も重要な2つの3Dポイントクラウドデータセット上で評価されている。精度の面では最先端モデルと比較して妥当な性能を達成し、パラメータの数ははるかに少ない。
論文参考訳（メタデータ） (2019-12-27T13:12:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。