Fugu-MT 論文翻訳(概要): VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale

論文の概要: VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale

arxiv url: http://arxiv.org/abs/2602.23361v1
Date: Thu, 26 Feb 2026 18:59:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.864395
Title: VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale
Title（参考訳）: VGG-T$^3$: 大規模フィードフォワード3次元再構成
Authors: Sven Elflein, Ruilong Li, Sérgio Agostinho, Zan Gojcic, Laura Leal-Taixé, Qunjie Zhou, Aljosa Osep,
Abstract要約: オフラインフィードフォワード方式における限界に対処するスケーラブルな3次元再構成モデルを提案する。我々のアプローチは、このボトルネックがシーン幾何学の様々な長さのキーバリュー(KV)空間表現に起因しているというキーインサイトに基づいている。 VGG-T$3$ (Visual Geometry Grounded Test Time Training) はオンラインモデルに似た入力ビューの数を線形にスケールし、わずか54ドル秒で1k$の画像コレクションを再構築する。
参考スコア（独自算出の注目度）: 44.72105958250334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present a scalable 3D reconstruction model that addresses a critical limitation in offline feed-forward methods: their computational and memory requirements grow quadratically w.r.t. the number of input images. Our approach is built on the key insight that this bottleneck stems from the varying-length Key-Value (KV) space representation of scene geometry, which we distill into a fixed-size Multi-Layer Perceptron (MLP) via test-time training. VGG-T$^3$ (Visual Geometry Grounded Test Time Training) scales linearly w.r.t. the number of input views, similar to online models, and reconstructs a $1k$ image collection in just $54$ seconds, achieving a $11.6\times$ speed-up over baselines that rely on softmax attention. Since our method retains global scene aggregation capability, our point map reconstruction error outperforming other linear-time methods by large margins. Finally, we demonstrate visual localization capabilities of our model by querying the scene representation with unseen images.
Abstract（参考訳）: 本稿では,オフラインフィードフォワード方式における限界に対処するスケーラブルな3次元再構成モデルを提案する。本手法は, シーン幾何学におけるキーバリュー(KV)空間の空間表現が, テストタイムトレーニングを通じて, 固定サイズマルチ層パーセプトロン(MLP)に蒸留されることから生じるという重要な知見に基づいて構築されている。 VGG-T$^3$ (Visual Geometry Grounded Test Time Training) は、オンラインモデルと同様の入力ビューの数を線形にスケールし、わずか54ドル秒で1k$の画像コレクションを再構築し、ソフトマックスの注意に依存するベースラインよりも11.6\times$のスピードアップを達成する。提案手法は,大域的なシーンアグリゲーション機能を保持するため,他の線形時間法よりも大きなマージン差で,ポイントマップ再構成誤差が優れている。最後に、シーン表現を見えない画像でクエリすることで、モデルの視覚的ローカライズ機能を示す。

関連論文リスト

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training [100.29965188088966]
本稿では,線形時間・双方向3次元再構成を2次時間法の精度に適合あるいは超越しながら実現した,ステートフルフィードフォワードモデルZipMapを紹介する。 ZipMapはテストタイムのトレーニングレイヤを使用して、イメージコレクション全体を単一のフォワードパスでコンパクトな隠れシーン状態にジップする。リアルタイム・シーン・クエリーにおけるステートフルな表現の利点とシーケンシャル・ストリーミング・リストラクションへの拡張を実証する。
論文参考訳（メタデータ） (2026-03-04T18:49:37Z)
Continuous 3D Perception Model with Persistent State [111.83854602049222]
広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
論文参考訳（メタデータ） (2025-01-21T18:59:23Z)
3DMiner: Discovering Shapes from Large-Scale Unannotated Image Datasets [34.610546020800236]
3DMinerは、挑戦的なデータセットから3D形状をマイニングするためのパイプラインである。本手法は最先端の教師なし3次元再構成技術よりもはるかに優れた結果が得られる。 LAION-5Bデータセットから得られる画像の形状を再構成することにより,3DMinerを組込みデータに適用する方法を示す。
論文参考訳（メタデータ） (2023-10-29T23:08:19Z)
Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文参考訳（メタデータ） (2023-04-12T16:15:05Z)
Towards 3D Scene Reconstruction from Locally Scale-Aligned Monocular Video Depth [90.33296913575818]
映像深度推定や映像からの3次元シーン再構成のようなビデオベースのシナリオでは、フレームごとの予測における未知のスケールとシフトが深度の不整合を引き起こす可能性がある。局所重み付き線形回帰法を提案する。提案手法は,複数のゼロショットベンチマークにおいて,既存の最先端手法の性能を50%向上させることができる。
論文参考訳（メタデータ） (2022-02-03T08:52:54Z)
Detailed Facial Geometry Recovery from Multi-view Images by Learning an Implicit Function [12.522283941978722]
約10秒で高精細な3次元顔を復元する新しいアーキテクチャを提案する。マルチビュー画像から3次元形態素モデルを取り付けることで、複数の画像の特徴を抽出し、メッシュ付きUV空間に集約する。提案手法は,FaceScape データセットにおいて,SOTA 学習に基づく MVS の精度を高いマージンで向上させる。
論文参考訳（メタデータ） (2022-01-04T07:24:58Z)
Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文参考訳（メタデータ） (2021-04-21T00:35:32Z)
Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文参考訳（メタデータ） (2020-04-05T12:52:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。