論文の概要: Registration-Free Learnable Multi-View Capture of Faces in Dense Semantic Correspondence
- arxiv url: http://arxiv.org/abs/2605.01450v1
- Date: Sat, 02 May 2026 13:59:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.779469
- Title: Registration-Free Learnable Multi-View Capture of Faces in Dense Semantic Correspondence
- Title(参考訳): ディエンス・セマンティック対応における顔の登録不要学習可能な多視点キャプチャ
- Authors: Panagiotis P. Filntisis, George Retsinas, Radek Daněček, Vanessa Sklyarova, Petros Maragos, Timo Bolkart,
- Abstract要約: MOCHIは、登録したトレーニングデータを必要とせずにトレーニングされた多視点3D顔予測フレームワークである。
標準点間距離は、登録不要設定でトレーニングの不安定性と視覚的アーティファクトを誘導する。
代わりに、よりスムーズな勾配とより優れた再構成忠実度を提供する点マップと正規化に基づく損失を提案する。
- 参考スコア(独自算出の注目度): 30.38509036690193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent frameworks like ToFu and TEMPEH provide an automated alternative to classical registration pipelines by predicting 3D meshes in dense semantic correspondence directly from calibrated multi-view images. However, these learning-based methods rely on the slow, manual registration pipelines they aim to replace for their training supervision. We overcome this limitation with MOCHI (Multi-view Optimizable Correspondence of Heads from Images), a multi-view 3D face prediction framework trained without requiring registered training data. MOCHI eliminates the registration data dependency by enforcing topological consistency through a pseudo-linear inverse kinematic solver. Semantic alignment is guided by dense keypoints from a 2D landmark predictor trained exclusively on synthetic data. Our analysis further reveals that standard point-to-surface distances induce training instabilities and visual artifacts in registration-free settings. We propose pointmap- and normal-based losses instead, which provide smoother gradients and superior reconstruction fidelity. Finally, we introduce a test-time optimization scheme that refines network weights over a few dozen iterations. This approach bridges the gap between feed-forward efficiency and iterative optimization precision, allowing MOCHI to outperform traditional labor-intensive pipelines in both reconstruction accuracy and visual quality. Code and model are public at: https://filby89.github.io/mochi.
- Abstract(参考訳): ToFuやTEMPEHといった最近のフレームワークは、キャリブレーションされたマルチビューイメージから直接、密接なセマンティック対応で3Dメッシュを予測することで、古典的な登録パイプラインの自動化代替手段を提供する。
しかし、これらの学習ベースの手法は、トレーニングの監督のために置き換えようとしている、遅い手動の登録パイプラインに依存している。
この制限をMOCHI (Multi-view Optimizable Cor correspondingence of Heads from Images) で克服する。
MOCHIは、擬線形逆運動解法により位相整合を強制することにより、登録データ依存を解消する。
セマンティックアライメントは、合成データにのみ訓練された2Dランドマーク予測器から密集したキーポイントによって導かれる。
さらに, 標準地点間距離は, 登録不要環境下でのトレーニング不安定性と視覚的アーティファクトを誘導することを明らかにした。
代わりに、よりスムーズな勾配とより優れた再構成忠実度を提供する点マップと正規化に基づく損失を提案する。
最後に,ネットワーク重みを数十回にわたって改善するテスト時間最適化手法を提案する。
このアプローチは、フィードフォワード効率と反復最適化精度のギャップを埋め、MOCHIが従来の労働集約パイプラインを再現精度と視覚的品質の両方で上回るようにします。
コードとモデルは、https://filby89.github.io/mochi.comで公開されている。
関連論文リスト
- Learning 3D Reconstruction with Priors in Test Time [38.04707926304637]
本稿では,事前学習した画像のみのネットワークを再トレーニングしたり修正したりすることなく,3Dタスクを改善するための事前処理を組み込んだマルチビュートランスフォーマー(MVT)のテストタイムフレームワークを提案する。
提案手法は,ベースMVTよりも高いマージンで連続的に性能を向上する。
論文 参考訳(メタデータ) (2026-04-04T22:10:28Z) - Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - Learning to Track Any Points from Human Motion [55.831218129679144]
点追跡のための擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。
AnthroTAPでトレーニングされた点追跡モデルは、TAP-Vidベンチマークで注釈付き最先端性能を達成する。
論文 参考訳(メタデータ) (2025-07-08T17:59:58Z) - Neural Semantic Surface Maps [52.61017226479506]
本稿では,2つの属とゼロの形状の地図を自動計算する手法を提案する。
提案手法は,手動のアノテーションや3Dトレーニングデータ要求を排除し,意味的表面-表面マップを生成する。
論文 参考訳(メタデータ) (2023-09-09T16:21:56Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Shape My Face: Registering 3D Face Scans by Surface-to-Surface
Translation [75.59415852802958]
Shape-My-Face (SMF) は、改良されたポイントクラウドエンコーダ、新しい視覚的注意機構、スキップ接続付きグラフ畳み込みデコーダ、特殊口モデルに基づく強力なエンコーダデコーダアーキテクチャである。
私たちのモデルは、トポロジカルにサウンドメッシュを最小限の監視で提供し、より高速なトレーニング時間を提供し、訓練可能なパラメータを桁違いに減らし、ノイズに強く、以前は見られないデータセットに一般化することができます。
論文 参考訳(メタデータ) (2020-12-16T20:02:36Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Deep-3DAligner: Unsupervised 3D Point Set Registration Network With
Optimizable Latent Vector [15.900382629390297]
本稿では,3次元登録における技術的課題に対処するために,学習に最適化を統合する新しいモデルを提案する。
ディープトランスフォーメーションデコーディングネットワークに加えて、我々のフレームワークは最適化可能なディープアンダーラインSpatial UnderlineCorrelation UnderlineRepresentationを導入している。
論文 参考訳(メタデータ) (2020-09-29T22:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。