論文の概要: Test3R: Learning to Reconstruct 3D at Test Time
- arxiv url: http://arxiv.org/abs/2506.13750v1
- Date: Mon, 16 Jun 2025 17:56:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.202812
- Title: Test3R: Learning to Reconstruct 3D at Test Time
- Title(参考訳): Test3R: テスト時に3Dを再構築する学習
- Authors: Yuheng Yuan, Qiuhong Shen, Shizun Wang, Xingyi Yang, Xinchao Wang,
- Abstract要約: Test3Rは驚くほどシンプルなテストタイム学習技術で、幾何学的精度を大幅に向上させる。
本手法は従来の3次元再構成法や多視点深度推定法よりも優れていた。
- 参考スコア(独自算出の注目度): 58.0912500917036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense matching methods like DUSt3R regress pairwise pointmaps for 3D reconstruction. However, the reliance on pairwise prediction and the limited generalization capability inherently restrict the global geometric consistency. In this work, we introduce Test3R, a surprisingly simple test-time learning technique that significantly boosts geometric accuracy. Using image triplets ($I_1,I_2,I_3$), Test3R generates reconstructions from pairs ($I_1,I_2$) and ($I_1,I_3$). The core idea is to optimize the network at test time via a self-supervised objective: maximizing the geometric consistency between these two reconstructions relative to the common image $I_1$. This ensures the model produces cross-pair consistent outputs, regardless of the inputs. Extensive experiments demonstrate that our technique significantly outperforms previous state-of-the-art methods on the 3D reconstruction and multi-view depth estimation tasks. Moreover, it is universally applicable and nearly cost-free, making it easily applied to other models and implemented with minimal test-time training overhead and parameter footprint. Code is available at https://github.com/nopQAQ/Test3R.
- Abstract(参考訳): DUSt3Rのような複雑なマッチング手法は、3次元再構成のためのペアワイズポイントマップを描画する。
しかし、ペアワイズ予測と限定的な一般化能力に依存することは、本質的に大域的な幾何学的整合性を制限する。
本研究では,幾何学的精度を大幅に向上させる,驚くほど単純なテスト時間学習技術であるTest3Rを紹介する。
イメージ三重項(I_1,I_2,I_3$)を使用して、Test3Rはペア(I_1,I_2$)とI_1,I_3$)から再構成を生成する。
中心となる考え方は、自己監督的な目的によってテスト時にネットワークを最適化することであり、共通のイメージである$I_1$に対して、これらの2つの再構成間の幾何的一貫性を最大化することである。
これにより、入力に関係なく、モデルが相互に一貫した出力を生成する。
大規模な実験により,本手法は従来の3次元再構成法や多視点深度推定法よりも優れていたことが確認された。
さらに、これは普遍的に適用可能で、ほとんど費用がかからないため、他のモデルにも容易に適用でき、最小限のテスト時間トレーニングオーバーヘッドとパラメータフットプリントで実装される。
コードはhttps://github.com/nopQAQ/Test3Rで入手できる。
関連論文リスト
- 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation [30.625439879741847]
M3DFB (Modularized 3D Face Restruction Benchmark) のためのツールキットを提案する。
エラーの基本成分は分離され交換可能であり、それぞれの効果を定量化することができる。
そこで本研究では,メッシュトポロジの不整合性に対して計算効率の良い手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:28:43Z) - SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images [49.7344030427291]
単一画像の3Dオブジェクト再構成の問題点について検討する。
最近の研究は回帰モデルと生成モデルという2つの方向に分かれている。
両方向を最大限に活用するための新しい2段階アプローチであるSPAR3Dを提案する。
論文 参考訳(メタデータ) (2025-01-08T18:52:03Z) - Implicit Shape and Appearance Priors for Few-Shot Full Head Reconstruction [16.082960967820036]
本稿では,数発のフル3次元頭部再構成の問題点に対処する。
我々は、座標に基づく表現に先立って確率的形状と外観を組み込むことにより、これを達成した。
我々はH3DSデータセットを拡張し、60個の高解像度3Dフルヘッドスキャンと対応する画像とマスクを含む。
論文 参考訳(メタデータ) (2023-10-12T07:35:30Z) - Neural Refinement for Absolute Pose Regression with Feature Synthesis [33.2608395824548]
APR(Absolute Pose Regression)メソッドは、ディープニューラルネットワークを使用して、RGBイメージからカメラのポーズを直接回帰する。
本研究では,暗黙的幾何制約を利用するテスト時間改善パイプラインを提案する。
また、トレーニング中に3次元幾何学的特徴を符号化し、テスト時に高密度な新しいビュー特徴を直接レンダリングしてAPR法を洗練させるニューラル・フィーチャー・シンセサイザー(NeFeS)モデルも導入する。
論文 参考訳(メタデータ) (2023-03-17T16:10:50Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。