論文の概要: LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing
- arxiv url: http://arxiv.org/abs/2509.25731v1
- Date: Tue, 30 Sep 2025 03:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.004041
- Title: LaTo: Landmark-tokenized Diffusion Transformer for Fine-grained Human Face Editing
- Title(参考訳): LaTo:きめ細かい顔編集のためのランドマーク対応拡散変換器
- Authors: Zhenghao Zhang, Ziying Zhang, Junchao Liao, Xiangyu Meng, Qiang Hu, Siyu Zhu, Xiaoyun Zhang, Long Qin, Weizhi Wang,
- Abstract要約: LaToは、きめ細かなアイデンティティ保存顔編集のためのランドマーク化拡散変換器である。
鍵となるイノベーションは、生のランドマーク座標を直接離散的な顔トークンに定量化するランドマークトークンライザである。
LaToは、最先端の手法を7.8%のアイデンティティ保存、4.6%のセマンティック一貫性で上回る。
- 参考スコア(独自算出の注目度): 21.615969575188284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal models for instruction-based face editing enable semantic manipulation but still struggle with precise attribute control and identity preservation. Structural facial representations such as landmarks are effective for intermediate supervision, yet most existing methods treat them as rigid geometric constraints, which can degrade identity when conditional landmarks deviate significantly from the source (e.g., large expression or pose changes, inaccurate landmark estimates). To address these limitations, we propose LaTo, a landmark-tokenized diffusion transformer for fine-grained, identity-preserving face editing. Our key innovations include: (1) a landmark tokenizer that directly quantizes raw landmark coordinates into discrete facial tokens, obviating the need for dense pixel-wise correspondence; (2) a location-mapping positional encoding that integrates facial and image tokens for unified processing, enabling flexible yet decoupled geometry-appearance interactions with high efficiency and strong identity preservation; and (3) a landmark predictor that leverages vision-language models to infer target landmarks from instructions and source images, whose structured chain-of-thought improves estimation accuracy and interactive control. To mitigate data scarcity, we curate HFL-150K, to our knowledge the largest benchmark for this task, containing over 150K real face pairs with fine-grained instructions. Extensive experiments show that LaTo outperforms state-of-the-art methods by 7.8% in identity preservation and 4.6% in semantic consistency. Code and dataset will be made publicly available upon acceptance.
- Abstract(参考訳): 命令ベースの顔編集のための最近のマルチモーダルモデルはセマンティックな操作を可能にするが、正確な属性制御とアイデンティティ保存に苦慮している。
ランドマークのような構造的な顔の表現は、中間的な監督に有効であるが、既存のほとんどの手法では、厳密な幾何学的制約として扱い、条件付きランドマークがソースから著しく逸脱した場合(例えば、大きな表現や変化のポーズ、不正確なランドマーク推定)にアイデンティティを低下させることができる。
これらの制約に対処するため、我々は、きめ細かなアイデンティティ保存顔編集のためのランドマーク化拡散変換器であるLaToを提案する。
キーとなるイノベーションは,(1) ランドマーク座標を直接離散的な顔トークンに量子化し,高密度画素対応の必要性を回避したランドマークトークン,(2) 顔と画像のトークンを統合処理に統合する位置マッピング, 柔軟性がありかつ疎結合なジオメトリ-外観相互作用, (3) 視覚言語モデルを活用して指示やソースイメージからランドマークを推定するランドマーク予測器, (3) 構造的連鎖は推定精度と対話性を向上させる。
データ不足を軽減するため、我々はHFL-150Kをこのタスクの最大のベンチマークとしてキュレートする。
大規模な実験により、LaToは最先端の手法を7.8%のアイデンティティ保存、4.6%のセマンティック一貫性で上回ることがわかった。
コードとデータセットは受理時に公開される。
関連論文リスト
- From Large Angles to Consistent Faces: Identity-Preserving Video Generation via Mixture of Facial Experts [69.44297222099175]
顔の特徴の異なるが相互に強化された側面を捉えた顔専門家の混合(MoFE)を導入する。
データセットの制限を軽減するため、私たちは、Face ConstraintsとIdentity Consistencyという2つの重要な側面を中心としたデータ処理パイプラインを調整しました。
我々は、既存のオープンソースヒューマンビデオデータセットからLFA(Large Face Angles)データセットをキュレートし、洗練しました。
論文 参考訳(メタデータ) (2025-08-13T04:10:16Z) - Learning Semantic Facial Descriptors for Accurate Face Animation [43.370084532812044]
ディレンマに対処するために,学習可能な不整合ベクトル空間に意味的顔記述子を導入する。
音源と駆動面にエンコーダを用いてベースベクトル係数を求め, 同一性および動作部分空間に有効な顔記述子を導出する。
提案手法は,高忠実度同定におけるモデルベース手法の限界問題と,高精度な動き伝達におけるモデルフリー手法が直面する課題に対処する。
論文 参考訳(メタデータ) (2025-01-29T15:40:42Z) - EmojiDiff: Advanced Facial Expression Control with High Identity Preservation in Portrait Generation [8.314556078632412]
ポートレート生成における極めて詳細な表現(RGBレベル)と高忠実度IDの同時制御を可能にする,最初のエンドツーエンドソリューションであるEmojiDiffを紹介する。
分離学習では、ID非関連データイテレーション(IDI)を改良し、相互同一性表現ペアを合成する。
また,さらに微調整を行うために,ID強化コントラストアライメント(ICA)を提案する。
論文 参考訳(メタデータ) (2024-12-02T08:24:11Z) - Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation [21.739328335601716]
本稿では,パーソナライズされた生成のための安定拡散モデルに,正確でインタラクティブなIDを挿入することに焦点を当てる。
顔のレイアウトや背景などのIDに依存しない情報を絡み合わせるのではなく、顔領域にフィットする顔の注意損失を提案する。
その結果,従来の手法と比較して,IDの精度,テキストベースの操作能力,一般化性が向上した。
論文 参考訳(メタデータ) (2024-01-31T11:52:33Z) - Attribute-preserving Face Dataset Anonymization via Latent Code
Optimization [64.4569739006591]
本稿では,事前学習したGANの潜時空間における画像の潜時表現を直接最適化するタスク非依存匿名化手法を提案する。
我々は一連の実験を通して、我々の手法が画像の同一性を匿名化できる一方で、顔の属性をより保存できることを実証した。
論文 参考訳(メタデータ) (2023-03-20T17:34:05Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Towards Accurate Facial Landmark Detection via Cascaded Transformers [14.74021483826222]
本稿では,カスケードトランスを用いた正確な顔のランドマーク検出手法を提案する。
トランスにおける自己注意によって、我々のモデルは本質的にランドマーク間の構造化された関係を活用できる。
このモデルでは, 目標ランドマークの周囲に最も関連性の高い画像の特徴を抽出し, 座標予測を行う。
論文 参考訳(メタデータ) (2022-08-23T08:42:13Z) - Learning Disentangled Representation for One-shot Progressive Face Swapping [92.09538942684539]
ジェネレーティブ・アドバーサリアル・ネットワークに基づくワンショット・フェイススワップのためのシンプルで効率的なFaceSwapperを提案する。
提案手法は,不整合表現モジュールと意味誘導融合モジュールから構成される。
本手法は,トレーニングサンプルの少ないベンチマークデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2022-03-24T11:19:04Z) - Fine-grained Identity Preserving Landmark Synthesis for Face Reenactment [30.062379710262068]
ランドマーク合成ネットワークは、より詳細できめ細かいランドマーク顔を生成するように設計されている。
ネットワークは、操作されたランドマークを洗練し、良好なID保存能力を備えたスムーズで徐々に変化する顔ランドマークシーケンスを生成する。
自作の BeautySelfie と公開の VoxCeleb1 データセットで実験を行った。
論文 参考訳(メタデータ) (2021-10-10T05:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。