論文の概要: Fus3D: Decoding Consolidated 3D Geometry from Feed-forward Geometry Transformer Latents
- arxiv url: http://arxiv.org/abs/2603.25827v1
- Date: Thu, 26 Mar 2026 18:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.237456
- Title: Fus3D: Decoding Consolidated 3D Geometry from Feed-forward Geometry Transformer Latents
- Title(参考訳): Fus3D:フィードフォワード幾何変換器から3次元幾何を復号化
- Authors: Laura Fink, Linus Franke, George Kopanas, Marc Stamminger, Peter Hedman,
- Abstract要約: 本稿では,3秒未満で非構造化画像コレクションからの高密度符号距離場(SDF)回帰のフィードフォワード法を提案する。
我々の重要な洞察は、事前訓練された多視点フィードフォワード幾何変換器の中間的特徴空間が、既に強力なジョイントワールド表現を符号化していることである。
代わりに、学習された体積抽出を通して幾何学変換器の特徴から直接3次元抽出を行う。
- 参考スコア(独自算出の注目度): 10.400785196849647
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a feed-forward method for dense Signed Distance Field (SDF) regression from unstructured image collections in less than three seconds, without camera calibration or post-hoc fusion. Our key insight is that the intermediate feature space of pretrained multi-view feed-forward geometry transformers already encodes a powerful joint world representation; yet, existing pipelines discard it, routing features through per-view prediction heads before assembling 3D geometry post-hoc, which discards valuable completeness information and accumulates inaccuracies. We instead perform 3D extraction directly from geometry transformer features via learned volumetric extraction: voxelized canonical embeddings that progressively absorb multi-view geometry information through interleaved cross- and self-attention into a structured volumetric latent grid. A simple convolutional decoder then maps this grid to a dense SDF. We additionally propose a scalable, validity-aware supervision scheme directly using SDFs derived from depth maps or 3D assets, tackling practical issues like non-watertight meshes. Our approach yields complete and well-defined distance values across sparse- and dense-view settings and demonstrates geometrically plausible completions. Code and further material can be found at https://lorafib.github.io/fus3d.
- Abstract(参考訳): 本稿では, カメラキャリブレーションやポストホック融合を伴わずに, 3秒未満で非構造化画像コレクションから高密度符号距離場(SDF)の回帰を行うフィードフォワード法を提案する。
我々の重要な洞察は、事前学習されたマルチビューフィードフォワード幾何変換器の中間的な特徴空間は、既に強力なジョイントワールド表現を符号化しているが、既存のパイプラインはそれを破棄し、ビューごとの予測ヘッドを経由し、3次元幾何学のポストホックを組み立てる前に特徴をルーティングし、貴重な完全性情報を捨て、不正確な情報を蓄積する。
その代わりに、我々は、学習された容積抽出を通して幾何学変換器の機能から直接3D抽出を行う: 構造された容積潜在格子に、クロスリーブと自己アテンションを介し、多視点幾何学情報を段階的に吸収するボクセル化正準埋め込み。
単純な畳み込みデコーダは、このグリッドを密度の高いSDFにマッピングする。
また,深度マップや3Dアセットから導出されるSDFを直接利用し,非水密メッシュのような実用的な問題に対処する,スケーラブルで妥当性に配慮した監視手法を提案する。
提案手法はスパースビューと密集ビューのセッティングにまたがる完全かつ明確に定義された距離値を求め,幾何的に可算な完備化を示す。
コードとさらなる資料はhttps://lorafib.github.io/fus3d.comで見ることができる。
関連論文リスト
- GGPT: Geometry Grounded Point Transformer [22.64445696362087]
本稿では,GGPT(Geometry-Grounded Point Transformer)について紹介する。
この基礎の上に構築された幾何誘導型3次元点変換器は,比例的な部分幾何学的監督の下で高密度点マップを洗練する。
論文 参考訳(メタデータ) (2026-03-11T18:00:04Z) - A 3D mesh convolution-based autoencoder for geometry compression [0.769971486557519]
本稿では,3次元メッシュ畳み込みに基づく幾何学的圧縮のためのオートエンコーダを導入し,前処理や多様体/水密条件を必要とせずに不規則なメッシュデータを扱う。
提案手法では,メッシュ面から直接特徴を学習することで有意義な潜在表現を抽出し,専用のプールやアンプール操作を通じて接続性を維持する。
論文 参考訳(メタデータ) (2026-03-02T17:42:58Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - PLANA3R: Zero-shot Metric Planar 3D Reconstruction via Feed-Forward Planar Splatting [56.188624157291024]
提案するPLANA3Rは,提案しない2次元画像から平面3次元再構成を計測するためのポーズレスフレームワークである。
トレーニング中に3次元平面アノテーションを必要とする以前のフィードフォワード法とは異なり、PLANA3Rは明確な平面監督なしで平面3次元構造を学習する。
本研究は,複数の室内環境データセットに対するPLANA3Rの有効性を検証するとともに,領域外屋内環境への強力な一般化を実証する。
論文 参考訳(メタデータ) (2025-10-21T15:15:33Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - POC-SLT: Partial Object Completion with SDF Latent Transformers [1.5999407512883512]
3次元幾何形状完成ヒンジは、表現学習と幾何データの深い理解に基づく。
符号付き距離場(SDF)を表す潜在空間で動作する変圧器を提案する。
モノリシックなボリュームの代わりに、オブジェクトのSDFは小さな高解像度のパッチに分割され、遅延コードのシーケンスにつながる。
論文 参考訳(メタデータ) (2024-11-08T09:13:20Z) - Spatial Acoustic Projection for 3D Imaging Sonar Reconstruction [2.741266294612776]
マルチビーム画像ソナーを用いた3次元表面の再構成手法を提案する。
3次元格子における固定セル位置の異なる視点からソナーが測定した強度を統合する。
我々は畳み込みニューラルネットワークを訓練し、署名された距離と各セルの最も近い表面への方向を予測できるようにします。
論文 参考訳(メタデータ) (2022-06-06T18:24:14Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。