論文の概要: LIA-X: Interpretable Latent Portrait Animator
- arxiv url: http://arxiv.org/abs/2508.09959v1
- Date: Wed, 13 Aug 2025 17:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.974081
- Title: LIA-X: Interpretable Latent Portrait Animator
- Title(参考訳): LIA-X:解釈可能なラテント・ポートレート・アニメーター
- Authors: Yaohui Wang, Di Yang, Xinyuan Chen, Francois Bremond, Yu Qiao, Antitza Dantcheva,
- Abstract要約: 我々は、運転映像から微粒な制御で顔のダイナミックスをソースのポートレートに転送するために設計された、新しい解釈可能なポートレートアニメーターであるIA-Xを紹介する。
LIA-Xには新しいスパースモーション辞書が組み込まれており、モデルが顔の動きを解釈可能な要素に分解することができる。
- 参考スコア(独自算出の注目度): 36.43696156610279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce LIA-X, a novel interpretable portrait animator designed to transfer facial dynamics from a driving video to a source portrait with fine-grained control. LIA-X is an autoencoder that models motion transfer as a linear navigation of motion codes in latent space. Crucially, it incorporates a novel Sparse Motion Dictionary that enables the model to disentangle facial dynamics into interpretable factors. Deviating from previous 'warp-render' approaches, the interpretability of the Sparse Motion Dictionary allows LIA-X to support a highly controllable 'edit-warp-render' strategy, enabling precise manipulation of fine-grained facial semantics in the source portrait. This helps to narrow initial differences with the driving video in terms of pose and expression. Moreover, we demonstrate the scalability of LIA-X by successfully training a large-scale model with approximately 1 billion parameters on extensive datasets. Experimental results show that our proposed method outperforms previous approaches in both self-reenactment and cross-reenactment tasks across several benchmarks. Additionally, the interpretable and controllable nature of LIA-X supports practical applications such as fine-grained, user-guided image and video editing, as well as 3D-aware portrait video manipulation.
- Abstract(参考訳): 我々は、運転映像から微粒な制御で顔のダイナミックスをソースのポートレートに転送するために設計された、新しい解釈可能なポートレートアニメーターであるIA-Xを紹介する。
LIA-Xは、ラテント空間における動き符号の線形ナビゲーションとしてモーション転送をモデル化するオートエンコーダである。
重要なことは、モデルが顔のダイナミクスを解釈可能な要素に分解することを可能にする、新しいスパースモーション辞書が組み込まれている。
従来の「ワープ・レンダー」アプローチから逸脱した、スパース運動辞典の解釈可能性により、RIA-Xは高度に制御可能な「エディト・ワープ・レンダー」戦略をサポートし、ソースポートレート内のきめ細かい顔のセマンティクスを正確に操作することができる。
これは、ポーズと表現の点で、ドライビングビデオとの最初の違いを狭めるのに役立つ。
さらに,広域データセット上で約10億のパラメータを持つ大規模モデルのトレーニングに成功し,LIA-Xのスケーラビリティを実証する。
実験の結果, 提案手法は, 複数のベンチマークにおいて, 自己再現タスクと相互再現タスクの両方において, 従来の手法よりも優れていることがわかった。
さらに、IA-Xの解釈可能で制御可能な性質は、3D対応のポートレートビデオ操作と同様に、きめ細かなユーザーガイド画像やビデオ編集などの実用的応用をサポートしている。
関連論文リスト
- SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - X-VILA: Cross-Modality Alignment for Large Language Model [91.96081978952283]
X-VILAは、画像、ビデオ、オーディオのモダリティを組み込むことで、大きな言語モデル(LLM)の機能を拡張するために設計された、オールニモダリティモデルである。
視覚情報損失問題に対処するため,視覚埋め込みハイウェイモジュールを用いた視覚アライメント機構を提案する。
X-VILAは、あらゆるモダリティの会話に習熟し、それまでのアプローチを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2024-05-29T17:59:58Z) - X-Portrait: Expressive Portrait Animation with Hierarchical Motion Attention [18.211762995744337]
本稿では,表現的かつ時間的コヒーレントなポートレートアニメーションを生成するための,革新的な条件拡散モデルであるX-Portraitを提案する。
外観参照として1つのポートレートが与えられた場合、駆動ビデオから得られる動きをアニメーション化し、非常にダイナミックかつ微妙な表情をキャプチャすることを目的としている。
実験により,X-ポートレートの多彩な顔画像および表現力のある運転シーケンスに対する普遍的効果が示された。
論文 参考訳(メタデータ) (2024-03-23T20:30:28Z) - StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - PIRenderer: Controllable Portrait Image Generation via Semantic Neural
Rendering [56.762094966235566]
ポートレート画像ニューラルレンダは、3次元の変形可能な顔モデルのパラメータで顔の動きを制御するために提案される。
提案モデルでは直感的な修正によって正確な動きで写真リアルなポートレート画像を生成することができる。
本モデルでは、単一の参照画像と駆動音声ストリームのみから、説得力のある動きでコヒーレントな動画を生成することができる。
論文 参考訳(メタデータ) (2021-09-17T07:24:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。