Fugu-MT 論文翻訳(概要): Loki: Representation over Architecture for Diffusion-Based Portrait Animation

論文の概要: Loki: Representation over Architecture for Diffusion-Based Portrait Animation

arxiv url: http://arxiv.org/abs/2605.24176v1
Date: Fri, 22 May 2026 19:54:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 19:50:17.664983
Title: Loki: Representation over Architecture for Diffusion-Based Portrait Animation
Title（参考訳）: Loki: 拡散ベースのポートレートアニメーションのためのアーキテクチャの表現
Authors: Pouyan Navard, Sernam Lim,
Abstract要約: ポートレートアニメーションは、ドライバークリップの表情とヘッドポーズを単一の参照画像に転送する。最先端拡散システムは、表現、ポーズ、アイデンティティの訓練されたモジュールを積み重ねることでこの問題に対処する。 Lokiは、主要な拡散ベースラインよりも推論パラメータを43%少なくし、1496倍少ないビデオサンプルでトレーニングする。
参考スコア（独自算出の注目度）: 47.854100862432325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Portrait animation transfers a driver clip's facial expression and head pose onto a single reference image while preserving the reference's identity. State-of-the-art diffusion systems address this by stacking trained modules for expression, pose, and identity in turn, paying for it in trainable parameters, proprietary corpora, and residual entanglement between the very axes the system is meant to control independently. This complexity compensates for an upstream choice -- learning facial expression and head pose from RGB, a representation in which identity, pose, and expression are inseparable without being learned apart. Loki steps out of RGB on the conditioning path. Driver expression and head pose are encoded by a face model whose parameter axes are identity-orthogonal by construction, then rasterised into a spatial map that the diffusion backbone consumes natively. Identity is routed separately through the diffusion backbone's own pretrained features via lightweight key-value injection. Because the parametric representation factorises identity from expression and pose, cross ID reenactment reduces to a coefficient substitution at inference, requiring no cross ID training data. Loki requires ~43% fewer inference parameters than leading diffusion baselines and trained on 1496x less video samples. We define two metrics that directly measure whether the generated head pose trajectory and facial expression followed the driver's -- the questions portrait animation actually asks; Loki leads or co-leads on both.
Abstract（参考訳）: ポートレートアニメーションは、ドライバクリップの表情とヘッドポーズを、参照のアイデンティティを保持しながら単一の参照イメージに転送する。最先端の拡散システムは、訓練されたモジュールを積み重ねて表現、ポーズ、アイデンティティを積み重ね、訓練可能なパラメータ、プロプライエタリなコーパス、システムが独立に制御することを意図した軸間の残留絡み合いに代えることで、この問題に対処する。この複雑さは上流での選択を補う - RGBから表情と頭部のポーズを学習する。 LokiはコンディショニングパスでRGBからステップアウトします。ドライバ表現とヘッドポーズは、パラメータ軸が構成によって同一視されるフェースモデルによって符号化され、拡散バックボーンがネイティブに消費する空間マップにラスタ化される。アイデンティティは、軽量なキーバリューインジェクションを通じて、拡散バックボーン自身の事前訓練された機能を通じて、別々にルーティングされる。パラメトリック表現は表現とポーズからアイデンティティを分解するため、クロスIDの再現は推論時の係数置換に還元され、クロスIDトレーニングデータを必要としない。 Lokiは、主要な拡散ベースラインよりも約43%少ない推論パラメータを必要とし、1496倍少ないビデオサンプルでトレーニングされている。生成した頭部の軌道と顔の表情がドライバーの指示に従うかどうかを直接測定する2つの指標を定義します。

関連論文リスト

DeX-Portrait: Disentangled and Expressive Portrait Animation via Explicit and Latent Motion Representations [31.845995837468536]
DeX-ポートレート(DeX-Portrait)は、アンタングルされたポーズと表現信号によって駆動される表現的ポートレートアニメーションを生成する新しい手法である。まず、ポーズと表現エンコーダの両方を学習し、精密かつ分解された駆動信号を抽出する強力なモーショントレーナーを設計する。実験の結果,本手法はアニメーション品質とアンタングル制御性の両方において,最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-12-17T15:23:57Z)
DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文参考訳（メタデータ） (2025-12-10T08:31:28Z)
Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。 IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-10-28T09:28:12Z)
X-NeMo: Expressive Neural Motion Reenactment via Disentangled Latent Attention [52.94097577075215]
X-NeMoはゼロショット拡散ベースのポートレートアニメーションパイプラインである。異なる人物の運転ビデオから顔の動きを使って、静的な肖像画を撮影する。
論文参考訳（メタデータ） (2025-07-30T22:46:52Z)
Pose and Facial Expression Transfer by using StyleGAN [1.757194730633422]
顔画像間でポーズと表情を伝達する手法を提案する。モデルは、ソース顔画像のポーズと表現がターゲットIDに転送される出力画像を生成する。
論文参考訳（メタデータ） (2025-04-17T15:29:41Z)
Learning Implicit Probability Distribution Functions for Symmetric Orientation Estimation from RGB Images Without Pose Labels [23.01797447932351]
RGB-D画像の自動ポーズラベリング方式を提案する。我々は、RGB画像の向き仮説の確率を推定するために、インプリシットPDFモデルを訓練する。 SO(3)多様体の効率的な階層的サンプリングは、完備な対称性の集合を抽出可能な生成を可能にする。
論文参考訳（メタデータ） (2022-11-21T12:07:40Z)
Disentangling Identity and Pose for Facial Expression Recognition [54.50747989860957]
より識別的な特徴表現を学習するために,識別モデルを提案し,不整形表情認識(IPD-FER)モデルを提案する。アイデンティティエンコーダでは、訓練中に訓練済みの顔認識モデルを利用して固定し、特定の表情訓練データに対する制限を軽減する。合成された中性画像と同一個体の表情画像との差を比較することにより、表現成分はアイデンティティやポーズからさらに切り離される。
論文参考訳（メタデータ） (2022-08-17T06:48:13Z)
Learning an Animatable Detailed 3D Face Model from In-The-Wild Images [50.09971525995828]
本研究では, 実物的詳細と実物的画像から3次元顔レグレッサーを共同学習する第1の手法を提案する。 DECAモデルは、低次元の潜時表現からUV変位マップを堅牢に生成するように訓練されています。本稿では,人固有の細部と表情依存のしわを区別する新しい細部一貫性損失を提案する。
論文参考訳（メタデータ） (2020-12-07T19:30:45Z)
Mutual Information Regularized Identity-aware Facial ExpressionRecognition in Compressed Video [27.602648102881535]
本稿では,相互情報(MI)を最小化するための新しい協調ミンミニゲームを提案する。同一人物からの識別ラベルや複数の表現サンプルは不要である。我々のソリューションは、最近のデコードされた画像ベース手法に匹敵する、あるいは優れた性能を実現することができる。
論文参考訳（メタデータ） (2020-10-20T21:42:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。