論文の概要: Lynx: Towards High-Fidelity Personalized Video Generation
- arxiv url: http://arxiv.org/abs/2509.15496v1
- Date: Fri, 19 Sep 2025 00:31:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.945016
- Title: Lynx: Towards High-Fidelity Personalized Video Generation
- Title(参考訳): Lynx: 高精細なパーソナライズドビデオ生成を目指して
- Authors: Shen Sang, Tiancheng Zhi, Tianpei Gu, Jing Liu, Linjie Luo,
- Abstract要約: 単一入力画像からパーソナライズされたビデオ合成のための高忠実度モデルLynxを提案する。
オープンソースのDiffusion Transformer(DiT)基盤モデルに基づいて開発されたLynxは、アイデンティティの忠実性を保証するために、2つの軽量アダプタを導入している。
- 参考スコア(独自算出の注目度): 13.622259697242667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Lynx, a high-fidelity model for personalized video synthesis from a single input image. Built on an open-source Diffusion Transformer (DiT) foundation model, Lynx introduces two lightweight adapters to ensure identity fidelity. The ID-adapter employs a Perceiver Resampler to convert ArcFace-derived facial embeddings into compact identity tokens for conditioning, while the Ref-adapter integrates dense VAE features from a frozen reference pathway, injecting fine-grained details across all transformer layers through cross-attention. These modules collectively enable robust identity preservation while maintaining temporal coherence and visual realism. Through evaluation on a curated benchmark of 40 subjects and 20 unbiased prompts, which yielded 800 test cases, Lynx has demonstrated superior face resemblance, competitive prompt following, and strong video quality, thereby advancing the state of personalized video generation.
- Abstract(参考訳): 単一入力画像からパーソナライズされたビデオ合成のための高忠実度モデルLynxを提案する。
オープンソースのDiffusion Transformer(DiT)基盤モデルに基づいて開発されたLynxは、アイデンティティの忠実性を保証するために、2つの軽量アダプタを導入している。
IDアダプタはPerceiver Resamplerを使用して、ArcFace由来の顔埋め込みを条件付け用のコンパクトなIDトークンに変換する一方、Ref-adapterは凍結された参照経路から高密度なVAE機能を統合し、すべてのトランスフォーマー層に細かな詳細をクロスアテンションを通じて注入する。
これらのモジュールは、時間的コヒーレンスと視覚的リアリズムを維持しながら、堅牢なアイデンティティ保存を可能にする。
40名の被験者と20名の無バイアスプロンプトによる評価の結果、800件のテストケースが得られたが、Lynxは優れた顔類似性、競争力のあるプロンプト、強力なビデオ品質を示し、パーソナライズされたビデオ生成の状態を推し進めた。
関連論文リスト
- Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation [12.243958169714166]
ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイのフレームワークであるStand-Inを提案する。
我々のフレームワークは、ビデオの品質とアイデンティティの保存において優れた結果をもたらし、他のフルパラメータトレーニング方法よりも優れています。
我々のフレームワークは、主題駆動のビデオ生成、ポーズ参照ビデオ生成、スタイル化、顔交換など、他のタスクにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-08-11T12:17:38Z) - Concat-ID: Towards Universal Identity-Preserving Video Synthesis [23.40342294656802]
Concat-IDは、アイデンティティ保存ビデオ合成のための統合されたフレームワークである。
それは、それらを組み込むための固有の3D自己認識機構にのみ依存する。
Concat-IDは、ID保存ビデオ合成のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-18T11:17:32Z) - LTX-Video: Realtime Video Latent Diffusion [4.7789714048042775]
LTX-Videoはトランスフォーマーベースの潜在拡散モデルである。
Video-VAEとDenoising Transformerをシームレスに統合する。
Nvidia H100 GPU上では、24fpsのビデオ768 atx512の解像度をわずか2秒で生成する。
論文 参考訳(メタデータ) (2024-12-30T19:00:25Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - Fairy: Fast Parallelized Instruction-Guided Video-to-Video Synthesis [51.44526084095757]
画像編集拡散モデルのミニマリストでありながらロバストな適応であるFairyを導入し,映像編集用として拡張する。
提案手法は,フレーム間の拡散特性を暗黙的に伝播させる機構であるアンカーベースクロスフレームアテンションの概念に重点を置いている。
1000個のサンプルを含む総合的なユーザスタディは、我々のアプローチが優れた品質を提供し、確定的に確立された方法よりも優れた結果をもたらすことを確認します。
論文 参考訳(メタデータ) (2023-12-20T01:49:47Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。