Fugu-MT 論文翻訳(概要): FaceLift: Semi-supervised 3D Facial Landmark Localization

論文の概要: FaceLift: Semi-supervised 3D Facial Landmark Localization

arxiv url: http://arxiv.org/abs/2405.19646v1
Date: Thu, 30 May 2024 02:58:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-31 18:26:21.626175
Title: FaceLift: Semi-supervised 3D Facial Landmark Localization
Title（参考訳）: FaceLift: 半教師付き3D顔ランドマークのローカライゼーション
Authors: David Ferman, Pablo Garrido, Gaurav Bharaj,
Abstract要約: 本稿では,手書きの2Dランドマークを直接持ち上げることで3Dランドマークを学習する,新しい半教師付き学習手法を提案する。我々は、3D対応のGANを利用して、より優れたマルチビュー一貫性学習と、堅牢なクロスジェネリゼーションのためのマルチフレームビデオを作成する。
参考スコア（独自算出の注目度）: 6.191692539328364
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D facial landmark localization has proven to be of particular use for applications, such as face tracking, 3D face modeling, and image-based 3D face reconstruction. In the supervised learning case, such methods usually rely on 3D landmark datasets derived from 3DMM-based registration that often lack spatial definition alignment, as compared with that chosen by hand-labeled human consensus, e.g., how are eyebrow landmarks defined? This creates a gap between landmark datasets generated via high-quality 2D human labels and 3DMMs, and it ultimately limits their effectiveness. To address this issue, we introduce a novel semi-supervised learning approach that learns 3D landmarks by directly lifting (visible) hand-labeled 2D landmarks and ensures better definition alignment, without the need for 3D landmark datasets. To lift 2D landmarks to 3D, we leverage 3D-aware GANs for better multi-view consistency learning and in-the-wild multi-frame videos for robust cross-generalization. Empirical experiments demonstrate that our method not only achieves better definition alignment between 2D-3D landmarks but also outperforms other supervised learning 3D landmark localization methods on both 3DMM labeled and photogrammetric ground truth evaluation datasets. Project Page: https://davidcferman.github.io/FaceLift
Abstract（参考訳）: 3D顔ランドマークのローカライゼーションは、顔追跡、3D顔モデリング、画像ベースの3D顔再構成などのアプリケーションで特に有用であることが証明されている。教師付き学習の場合、このような方法は、しばしば空間的定義の整合性に欠ける3DMMベースの登録から得られる3Dランドマークデータセットに依存している。これにより、高品質な2Dラベルと3DMMによって生成されるランドマークデータセット間のギャップが生じ、最終的にはその有効性が制限される。この問題に対処するために,手書きの2Dランドマークを直接持ち上げ,3Dランドマークデータセットを必要とせず,より優れた定義アライメントを確保することによって,3Dランドマークを学習する,新しい半教師付き学習手法を導入する。 2Dのランドマークを3Dに上げるために、3D対応のGANを活用して、より優れたマルチビュー一貫性学習と、堅牢なクロスジェネリゼーションのためのマルチフレームビデオを提供します。実験により,本手法は2次元3次元ランドマーク間のより良い定義アライメントを実現するだけでなく,3次元MMラベル付きおよび光グラム付き地上真実評価データセット上での他の教師あり学習3次元ランドマーク定位法よりも優れることが示された。 Project Page: https://davidcferman.github.io/FaceLift

関連論文リスト

Unifying 2D and 3D Vision-Language Understanding [85.84054120018625]
2次元および3次元視覚言語学習のための統一アーキテクチャUniVLGを紹介する。 UniVLGは、既存の2D中心モデルと、エンボディシステムで利用可能なリッチな3Dセンサーデータのギャップを埋める。
論文参考訳（メタデータ） (2025-03-13T17:56:22Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
Weakly Supervised 3D Object Detection via Multi-Level Visual Guidance [72.6809373191638]
本稿では,3次元ラベルを必要とせずに2次元ドメインと3次元ドメイン間の制約を活用できるフレームワークを提案する。具体的には、LiDARと画像特徴をオブジェクト認識領域に基づいて整列する特徴レベルの制約を設計する。第二に、出力レベルの制約は、2Dと投影された3Dボックスの推定の重なりを強制するために開発される。第3に、トレーニングレベルの制約は、視覚データと整合した正確で一貫した3D擬似ラベルを生成することによって利用される。
論文参考訳（メタデータ） (2023-12-12T18:57:25Z)
RAFaRe: Learning Robust and Accurate Non-parametric 3D Face Reconstruction from Pseudo 2D&3D Pairs [13.11105614044699]
単視3次元顔再構成(SVFR)のための頑健で正確な非パラメトリック手法を提案する。大規模な擬似2D&3Dデータセットは、まず詳細な3D顔をレンダリングし、野生の画像の顔と描画された顔とを交換することによって作成される。本モデルは,FaceScape-wild/labおよびMICCベンチマークにおいて,従来の手法よりも優れていた。
論文参考訳（メタデータ） (2023-02-10T19:40:26Z)
SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-07T17:47:52Z)
TANDEM3D: Active Tactile Exploration for 3D Object Recognition [16.548376556543015]
触覚信号を用いた3次元物体認識のための協調学習フレームワークであるTANDEM3Dを提案する。 TANDEM3Dは、PointNet++を使って接触位置と正規値から3Dオブジェクト表現を構築する新しいエンコーダに基づいている。本手法はシミュレーションで完全に訓練され,実世界の実験で検証される。
論文参考訳（メタデータ） (2022-09-19T05:54:26Z)
MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文参考訳（メタデータ） (2022-08-18T00:48:15Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。 2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文参考訳（メタデータ） (2021-08-25T08:50:06Z)
Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。 3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文参考訳（メタデータ） (2020-08-04T13:56:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。