論文の概要: PAL-Net: A Point-Wise CNN with Patch-Attention for 3D Facial Landmark Localization
- arxiv url: http://arxiv.org/abs/2510.00910v1
- Date: Wed, 01 Oct 2025 13:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.594904
- Title: PAL-Net: A Point-Wise CNN with Patch-Attention for 3D Facial Landmark Localization
- Title(参考訳): PAL-Net:3次元顔のランドマーク位置決めのためのパッチアテンション付きポイントワイズCNN
- Authors: Ali Shadman Yazdi, Annalisa Cappella, Benedetta Baldini, Riccardo Solazzo, Gianluca Tartaglia, Chiarella Sforza, Giuseppe Baselli,
- Abstract要約: 3D顔スキャンにおける解剖学的ランドマークのマニュアルアノテーションは、時間と専門性に依存したタスクである。
本研究は,50個の解剖学的ランドマークをステレオフォトグラム法顔モデル上に局在させる完全自動ディープラーニングパイプライン(PALNet)を提案する。
- 参考スコア(独自算出の注目度): 0.4637385034504733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Manual annotation of anatomical landmarks on 3D facial scans is a time-consuming and expertise-dependent task, yet it remains critical for clinical assessments, morphometric analysis, and craniofacial research. While several deep learning methods have been proposed for facial landmark localization, most focus on pseudo-landmarks or require complex input representations, limiting their clinical applicability. This study presents a fully automated deep learning pipeline (PAL-Net) for localizing 50 anatomical landmarks on stereo-photogrammetry facial models. The method combines coarse alignment, region-of-interest filtering, and an initial approximation of landmarks with a patch-based pointwise CNN enhanced by attention mechanisms. Trained and evaluated on 214 annotated scans from healthy adults, PAL-Net achieved a mean localization error of 3.686 mm and preserves relevant anatomical distances with a 2.822 mm average error, comparable to intra-observer variability. To assess generalization, the model was further evaluated on 700 subjects from the FaceScape dataset, achieving a point-wise error of 0.41\,mm and a distance-wise error of 0.38\,mm. Compared to existing methods, PAL-Net offers a favorable trade-off between accuracy and computational cost. While performance degrades in regions with poor mesh quality (e.g., ears, hairline), the method demonstrates consistent accuracy across most anatomical regions. PAL-Net generalizes effectively across datasets and facial regions, outperforming existing methods in both point-wise and structural evaluations. It provides a lightweight, scalable solution for high-throughput 3D anthropometric analysis, with potential to support clinical workflows and reduce reliance on manual annotation. Source code can be found at https://github.com/Ali5hadman/PAL-Net-A-Point-Wise-CNN-with-Patch-Attention
- Abstract(参考訳): 3D顔スキャンにおける解剖学的ランドマークのマニュアルアノテーションは、時間と専門性に依存したタスクであるが、臨床評価、形態計測分析、頭蓋顔面研究には重要な課題である。
顔のランドマークのローカライゼーションにはいくつかのディープラーニング手法が提案されているが、ほとんどの場合、偽ランドマークや複雑な入力表現が必要であり、臨床応用性が制限されている。
本研究は,50個の解剖学的ランドマークをステレオフォトグラム法顔モデル上に局在させる完全自動ディープラーニングパイプライン(PAL-Net)を提案する。
この方法は、アライメントの粗いアライメント、関心領域フィルタリング、およびランドマークの初期近似と、アテンション機構によって強化されたパッチベースのポイントワイズCNNを組み合わせる。
PAL-Netは、健康な成人の214個のアノテートスキャンをトレーニングし、評価し、平均局所化誤差3.686mmを達成し、関連する解剖学的距離を2.822mm平均誤差で保存した。
一般化を評価するため、このモデルはFaceScapeデータセットから700人の被験者に対してさらに評価され、点次誤差は0.41\,mm、距離次誤差は0.38\,mmとなった。
既存の手法と比較して、PAL-Netは精度と計算コストのトレードオフを提供する。
メッシュ品質の低い領域(例えば耳やヘアライン)では性能が低下するが、ほとんどの解剖学的領域で一貫した精度を示す。
PAL-Netは、データセットと顔領域を効果的に一般化し、ポイントワイドおよび構造評価の両方で既存の手法より優れている。
ハイスループットな3D人文計測分析のための軽量でスケーラブルなソリューションを提供し、臨床ワークフローをサポートし、手動のアノテーションへの依存を減らす可能性がある。
ソースコードはhttps://github.com/Ali5hadman/PAL-Net-A-Point-Wise-CNN-with-Patch-Attentionにある。
関連論文リスト
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - White Matter Tracts are Point Clouds: Neuropsychological Score
Prediction and Critical Region Localization via Geometric Deep Learning [68.5548609642999]
ホワイトマタートラクトデータを用いた神経心理学的スコア予測のためのディープラーニングに基づくフレームワークを提案する。
各点の微細構造測定を行う点雲として, arcuate fasciculus (AF) を表現した。
Paired-Siamese Lossでは,連続した神経心理学的スコアの違いに関する情報を利用した予測性能を改善した。
論文 参考訳(メタデータ) (2022-07-06T02:03:28Z) - KTN: Knowledge Transfer Network for Learning Multi-person 2D-3D
Correspondences [77.56222946832237]
画像中の複数の人物の密着度を検出するための新しい枠組みを提案する。
提案手法は知識伝達ネットワーク(KTN)の2つの問題に対処する。
特徴解像度を同時に維持し、背景画素を抑圧し、この戦略は精度を大幅に向上させる。
論文 参考訳(メタデータ) (2022-06-21T03:11:37Z) - 3D unsupervised anomaly detection and localization through virtual
multi-view projection and reconstruction: Clinical validation on low-dose
chest computed tomography [2.2302915692528367]
仮想多視点投影と再構成と呼ばれるコンピュータ支援診断のためのディープニューラルネットワークに基づく手法を提案する。
本手法は, 教師あり学習に基づくゴールド標準と比較して, 患者レベルの異常検出を10%改善する。
異常領域を93%の精度でローカライズし、高い性能を示す。
論文 参考訳(メタデータ) (2022-06-18T13:22:00Z) - Localized Perturbations For Weakly-Supervised Segmentation of Glioma
Brain Tumours [0.5801621787540266]
本研究は,脳腫瘍のセグメンテーションマスクを事前訓練した3次元分類モデルから抽出するための,局所摂動を弱教師付きソリューションとして用いることを提案する。
また,U-netアーキテクチャを用いて,任意の分類において最も関連性の高い領域を見つけるために,3次元スーパーピクセルを利用する新しい摂動法を提案する。
論文 参考訳(メタデータ) (2021-11-29T21:01:20Z) - Structure-Aware Long Short-Term Memory Network for 3D Cephalometric
Landmark Detection [37.031819721889676]
本研究では,3次元ランドマーク検出のための構造対応長短期記憶フレームワーク(SA-LSTM)を提案する。
SA-LSTMは、まず、ダウンサンプリングCBCTボリューム上の熱マップ回帰によって粗いランドマークを見つける。
その後、高解像度の収穫パッチを使用して、注意深いオフセット回帰によってランドマークを徐々に洗練する。
実験の結果,提案手法は効率と精度で最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-21T06:35:52Z) - Prediction of progressive lens performance from neural network
simulations [62.997667081978825]
本研究の目的は,畳み込みニューラルネットワーク(CNN)に基づく視覚的視力(VA)予測の枠組みを提案することである。
提案する総合シミュレーションツールは主観的視覚性能の正確なモデルとして機能することが示されている。
論文 参考訳(メタデータ) (2021-03-19T14:51:02Z) - Siamese Network Features for Endoscopy Image and Video Localization [0.0]
位置決めフレームは、異常な位置に関する貴重な情報を提供する。
本研究では,メタラーニングと深層学習を組み合わせることで,内視鏡画像とビデオの両方をローカライズする。
論文 参考訳(メタデータ) (2021-03-15T16:24:30Z) - Automated 3D cephalometric landmark identification using computerized
tomography [1.4349468613117398]
頭蓋骨の形状を代用する3次元頭蓋骨計測のランドマークの同定は、頭蓋骨計測の基本的なステップである。
近年,ディープラーニング(dl)を用いた2次元頭部画像の自動ランドマーク作成が大きな成功を収めているが,80以上のランドマークに対する3次元ランドマークは,まだ満足のいくレベルには達していない。
本論文では,匿名化されたランドマークデータセットと対のCTデータを取り除いた,半教師付き3次元ランドマーク用DL法を提案する。
論文 参考訳(メタデータ) (2020-12-16T07:29:32Z) - Collaborative Boundary-aware Context Encoding Networks for Error Map
Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。
具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。
AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文 参考訳(メタデータ) (2020-06-25T12:42:01Z) - Structured Landmark Detection via Topology-Adapting Deep Graph Learning [75.20602712947016]
解剖学的顔と医学的ランドマーク検出のための新しいトポロジ適応深層グラフ学習手法を提案する。
提案手法は局所像特徴と大域形状特徴の両方を利用するグラフ信号を構成する。
3つの公開顔画像データセット(WFLW、300W、COFW-68)と3つの現実世界のX線医学データセット(ケパロメトリ、ハンド、ペルビス)で実験を行った。
論文 参考訳(メタデータ) (2020-04-17T11:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。