論文の概要: KaoLRM: Repurposing Pre-trained Large Reconstruction Models for Parametric 3D Face Reconstruction
- arxiv url: http://arxiv.org/abs/2601.12736v1
- Date: Mon, 19 Jan 2026 05:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.766376
- Title: KaoLRM: Repurposing Pre-trained Large Reconstruction Models for Parametric 3D Face Reconstruction
- Title(参考訳): KaoLRM:パラメトリック3次元顔再構成のための事前訓練済み大規模再構成モデル
- Authors: Qingtian Zhu, Xu Cao, Zhixiang Wang, Yinqiang Zheng, Takafumi Taketomi,
- Abstract要約: KaoLRMは、一視点画像からパラメトリックな3次元顔再構成を行うために、Large Restruction Model (LRM)の学習前を再度ターゲットする。
制御されたベンチマークと内部ベンチマークの両方の実験により、KaoLRMはより優れた再構成精度とクロスビュー整合性を実現することが示された。
- 参考スコア(独自算出の注目度): 51.67605823241639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose KaoLRM to re-target the learned prior of the Large Reconstruction Model (LRM) for parametric 3D face reconstruction from single-view images. Parametric 3D Morphable Models (3DMMs) have been widely used for facial reconstruction due to their compact and interpretable parameterization, yet existing 3DMM regressors often exhibit poor consistency across varying viewpoints. To address this, we harness the pre-trained 3D prior of LRM and incorporate FLAME-based 2D Gaussian Splatting into LRM's rendering pipeline. Specifically, KaoLRM projects LRM's pre-trained triplane features into the FLAME parameter space to recover geometry, and models appearance via 2D Gaussian primitives that are tightly coupled to the FLAME mesh. The rich prior enables the FLAME regressor to be aware of the 3D structure, leading to accurate and robust reconstructions under self-occlusions and diverse viewpoints. Experiments on both controlled and in-the-wild benchmarks demonstrate that KaoLRM achieves superior reconstruction accuracy and cross-view consistency, while existing methods remain sensitive to viewpoint variations. The code is released at https://github.com/CyberAgentAILab/KaoLRM.
- Abstract(参考訳): 本稿では,一視点画像から3次元顔のパラメトリック再構成を行うために,Large Restruction Model (LRM) の学習前を目標としたKaoLRMを提案する。
パラメトリック3Dモデル(3DMM)は、コンパクトで解釈可能なパラメータ化のため、顔の再構成に広く用いられているが、既存の3DMM回帰器は様々な視点で不整合を示すことが多い。
そこで, FLAMEをベースとした2次元ガウススプラッティングを, LRMのレンダリングパイプラインに組み込む。
具体的には、KaoLRMはLEMの事前訓練された三葉機の特徴をFLAMEパラメータ空間に投影して幾何学を復元し、FLAMEメッシュと密結合した2Dガウス原始体を介してモデルが現れる。
より豊かな事前は、FLAMEレグレッショナーが3D構造に気付くことを可能にし、自己閉塞と多様な視点の下で正確で堅牢な再構築へと繋がる。
制御されたベンチマークと内部ベンチマークの両方の実験により、KaoLRMはより優れた再構成精度とビュー間の整合性を実現し、既存の手法は視点の変化に敏感であることが示された。
コードはhttps://github.com/CyberAgentAILab/KaoLRMで公開されている。
関連論文リスト
- LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - GRMM: Real-Time High-Fidelity Gaussian Morphable Head Model with Learned Residuals [78.67749748078813]
3D Morphable Models (3DMM)は、再構成、アニメーション、AR/VRのための制御可能な顔形状と表情の編集を可能にする。
GRMMは,ベース3DMMに残留形状と外観成分を付加した最初のフルヘッド型ガウス型3次元形状モデルである。
GRMMは、インタラクティブなリアルタイムパフォーマンスを提供しながら、忠実さと表現精度において最先端の手法を超越している。
論文 参考訳(メタデータ) (2025-09-02T09:43:47Z) - Sparse-View 3D Reconstruction: Recent Advances and Open Challenges [0.8583178253811411]
濃密な画像取得が不可能なアプリケーションには,スパースビュー3D再構成が不可欠である。
この調査は、ニューラル暗黙のモデルと明示的なポイントクラウドベースのアプローチの最新の進歩をレビューする。
我々は, 幾何正規化, 明示的な形状モデリング, 生成的推論がアーティファクトの緩和にどのように利用されているかを分析する。
論文 参考訳(メタデータ) (2025-07-22T09:57:28Z) - LIRM: Large Inverse Rendering Model for Progressive Reconstruction of Shape, Materials and View-dependent Radiance Fields [23.174562444342286]
本稿では,高品質な形状,材料,放射界を共同で再構成するトランスフォーマーアーキテクチャであるLarge Inverse Rendering Model(LIRM)を提案する。
我々のモデルは、現在最先端のスパース・ビュー・リコンストラクション品質を実現する、最近の大規模リコンストラクション・モデル(LRM)に基づいて構築されている。
論文 参考訳(メタデータ) (2025-04-28T17:48:58Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - RGBAvatar: Reduced Gaussian Blendshapes for Online Modeling of Head Avatars [30.56664313203195]
本報告では,RGBアバター (Reduceed Gaussian Blendshapes Avatar, RGBAvatar, RGBAvatar, RGBAvatar) を用いて, 頭部アバターをオンザフライで再現するのに十分な速度で再構築する方法を提案する。
提案手法は, 3次元MMパラメータを, 合成により縮小したブレンドシェープ重みにマッピングし, コンパクトなブレンドシェープ基底に導いた。
本研究では,オフライン設定に匹敵する品質を確保しつつ,リアルタイムに映像ストリームとして画像を再構築し,直接オンザフライで再現できるローカル・グローバル・サンプリング・ストラテジーを提案する。
論文 参考訳(メタデータ) (2025-03-17T07:31:21Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - 3D Human Pose and Shape Regression with Pyramidal Mesh Alignment
Feedback Loop [128.07841893637337]
回帰に基づく手法は最近、単眼画像からヒトのメッシュを再構成する有望な結果を示した。
パラメータの小さな偏差は、推定メッシュと画像のエビデンスの間に顕著な不一致を引き起こす可能性がある。
本稿では,特徴ピラミッドを活用し,予測パラメータを補正するために,ピラミッドメッシュアライメントフィードバック(pymaf)ループを提案する。
論文 参考訳(メタデータ) (2021-03-30T17:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。