Fugu-MT 論文翻訳(概要): $π^3$: Scalable Permutation-Equivariant Visual Geometry Learning

論文の概要: $π^3$: Scalable Permutation-Equivariant Visual Geometry Learning

arxiv url: http://arxiv.org/abs/2507.13347v1
Date: Thu, 17 Jul 2025 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-18 20:10:24.618972
Title: $π^3$: Scalable Permutation-Equivariant Visual Geometry Learning
Title（参考訳）: $π^3$: スケーラブルな置換-等価な視覚幾何学学習
Authors: Yifan Wang, Jianjun Zhou, Haoyi Zhu, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Jiangmiao Pang, Chunhua Shen, Tong He,
Abstract要約: $pi3$はフィードフォワードニューラルネットワークで、視覚的幾何学的再構成に対する新しいアプローチを提供する。 pi3$は、アフィン不変のカメラポーズとスケール不変のローカルポイントマップを予測するために、完全な置換同変アーキテクチャを使用している。
参考スコア（独自算出の注目度）: 50.80418813055225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce $\pi^3$, a feed-forward neural network that offers a novel approach to visual geometry reconstruction, breaking the reliance on a conventional fixed reference view. Previous methods often anchor their reconstructions to a designated viewpoint, an inductive bias that can lead to instability and failures if the reference is suboptimal. In contrast, $\pi^3$ employs a fully permutation-equivariant architecture to predict affine-invariant camera poses and scale-invariant local point maps without any reference frames. This design makes our model inherently robust to input ordering and highly scalable. These advantages enable our simple and bias-free approach to achieve state-of-the-art performance on a wide range of tasks, including camera pose estimation, monocular/video depth estimation, and dense point map reconstruction. Code and models are publicly available.
Abstract（参考訳）: 我々は、従来の固定参照ビューに依存せず、視覚的幾何学的再構成に対する新しいアプローチを提供するフィードフォワードニューラルネットワークである$\pi^3$を紹介した。以前の手法は、しばしば、基準が最適以下であれば不安定性と失敗につながる誘導バイアスである、指定された視点に再構成を固定する。対照的に$\pi^3$は、アフィン不変のカメラポーズとスケール不変の局所点写像を参照フレームなしで予測するために、完全な置換同変アーキテクチャを使用する。この設計により、私たちのモデルは本質的に入力順序付けに堅牢で、高度にスケーラブルになります。これらの利点により、カメラポーズ推定、単眼/映像深度推定、高密度点マップ再構成など、幅広いタスクにおける最先端性能を実現するための、単純で偏見のないアプローチが可能になる。コードとモデルは公開されている。

関連論文リスト

Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文参考訳（メタデータ） (2025-07-22T07:22:30Z)
A Guide to Structureless Visual Localization [63.41481414949785]
既知のシーンにおけるクエリ画像のカメラポーズを推定する方法は、自動運転車や拡張現実/複合現実システムなど、多くのアプリケーションの中核的なコンポーネントである。最先端のビジュアルローカライゼーションアルゴリズムは、シーンの3Dモデルを格納し、カメラポーズ推定モデルにおけるクエリ画像と3Dポイント間の2D-3D対応を利用する。本論文は、私たちの知る限り、初めて包括的な議論を行い、構造化されていない手法の比較を行うものである。
論文参考訳（メタデータ） (2025-04-24T15:08:36Z)
UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文参考訳（メタデータ） (2024-11-25T05:36:00Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文参考訳（メタデータ） (2024-06-04T17:13:10Z)
Learning Robust Generalizable Radiance Field with Visibility and Feature Augmented Point Representation [7.203073346844801]
本稿では、一般化可能なニューラル放射場(NeRF)のための新しいパラダイムを提案する。本稿では、画像ベースレンダリングではなく、点ベースに基づく一般化可能なニューラルネットワークを構築するための第1のパラダイムを提案する。我々のアプローチは、幾何的先行性によって鮮度を明示的にモデル化し、それらをニューラル特徴で拡張する。
論文参考訳（メタデータ） (2024-01-25T17:58:51Z)
FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文参考訳（メタデータ） (2023-08-10T17:55:02Z)
Equivariant Light Field Convolution and Transformer [40.840098156362316]
2D画像からの幾何学的事前の深層学習には、各画像を2D$標準フレームで表現する必要があることが多い。 3次元の光線空間において、$SE(3)$-equivariant convolution and transformerを提案することによって、フレーム変換をコーディネートする複数のビューから事前学習方法を示す。
論文参考訳（メタデータ） (2022-12-30T18:38:31Z)
Pixel-Perfect Structure-from-Motion with Featuremetric Refinement [96.73365545609191]
複数視点からの低レベル画像情報を直接アライメントすることで、動きからの2つの重要なステップを洗練する。これにより、様々なキーポイント検出器のカメラポーズとシーン形状の精度が大幅に向上する。本システムは,大規模な画像コレクションに容易にスケールできるので,クラウドソースによる大規模なローカライゼーションを実現することができる。
論文参考訳（メタデータ） (2021-08-18T17:58:55Z)
A Divide et Impera Approach for 3D Shape Reconstruction from Multiple Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文参考訳（メタデータ） (2020-11-17T09:59:32Z)
Multi-View Optimization of Local Feature Geometry [70.18863787469805]
本研究では,複数視点からの局所像の特徴の幾何を,未知のシーンやカメラの幾何を伴わずに精査する問題に対処する。提案手法は,従来の特徴抽出とマッチングのパラダイムを自然に補完する。本手法は,手作りと学習の両方の局所的特徴に対して,三角測量とカメラのローカライゼーション性能を常に向上することを示す。
論文参考訳（メタデータ） (2020-03-18T17:22:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。