論文の概要: LPM 1.0: Video-based Character Performance Model
- arxiv url: http://arxiv.org/abs/2604.07823v2
- Date: Tue, 14 Apr 2026 22:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.340235
- Title: LPM 1.0: Video-based Character Performance Model
- Title(参考訳): LPM 1.0:ビデオベースのキャラクタパフォーマンスモデル
- Authors: Ailing Zeng, Casper Yang, Chauncey Ge, Eddie Zhang, Garvey Xu, Gavin Lin, Gilbert Gu, Jeremy Pi, Leo Li, Mingyi Shi, Shawn Wang, Sheng Bi, Steven Tang, Thorn Hang, Tobey Guo, Vincent Li, Xin Tong, Yikang Li, Yuchen Sun, Yue Zhao, Yuhan Lu, Yuwei Li, Zane Zhang, Zeshi Yang, Zi Ye,
- Abstract要約: 本稿では,LPM 1.0(Large Performance Model)について述べる。
厳密なフィルタリング、音声とビデオのペアリングによるパフォーマンス理解により、人間中心のデータセットを構築する。
我々はこれを低レイテンシで無限長の相互作用のために因果ストリーミングジェネレータ(オンラインLPM)に蒸留する。
- 参考スコア(独自算出の注目度): 32.6151928707232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performance, the externalization of intent, emotion, and personality through visual, vocal, and temporal behavior, is what makes a character alive. Learning such performance from video is a promising alternative to traditional 3D pipelines. However, existing video models struggle to jointly achieve high expressiveness, real-time inference, and long-horizon identity stability, a tension we call the performance trilemma. Conversation is the most comprehensive performance scenario, as characters simultaneously speak, listen, react, and emote while maintaining identity over time. To address this, we present LPM 1.0 (Large Performance Model), focusing on single-person full-duplex audio-visual conversational performance. Concretely, we build a multimodal human-centric dataset through strict filtering, speaking-listening audio-video pairing, performance understanding, and identity-aware multi-reference extraction; train a 17B-parameter Diffusion Transformer (Base LPM) for highly controllable, identity-consistent performance through multimodal conditioning; and distill it into a causal streaming generator (Online LPM) for low-latency, infinite-length interaction. At inference, given a character image with identity-aware references, LPM 1.0 generates listening videos from user audio and speaking videos from synthesized audio, with text prompts for motion control, all at real-time speed with identity-stable, infinite-length generation. LPM 1.0 thus serves as a visual engine for conversational agents, live streaming characters, and game NPCs. To systematically evaluate this setting, we propose LPM-Bench, the first benchmark for interactive character performance. LPM 1.0 achieves state-of-the-art results across all evaluated dimensions while maintaining real-time inference.
- Abstract(参考訳): パフォーマンス、すなわち、視覚的、声動的、時間的行動による意図、感情、性格の外部化は、キャラクターを生き生きさせるものである。
このようなパフォーマンスをビデオから学ぶことは、従来の3Dパイプラインに代わる有望な方法だ。
しかし、既存のビデオモデルは、高い表現性、リアルタイム推論、長距離アイデンティティ安定性を共同で達成するのに苦労しており、これはパフォーマンストリレンマと呼ばれる緊張関係である。
会話は、文字が時間の経過とともにアイデンティティを維持しながら同時に話し、耳を傾け、反応し、Emoteとして、最も包括的なパフォーマンスシナリオである。
そこで本稿では,LPM 1.0(Large Performance Model)について述べる。
具体的には、厳密なフィルタリング、音声-ビデオペアリング、パフォーマンス理解、アイデンティティ対応マルチ参照抽出によるマルチモーダル人中心データセットの構築、マルチモーダル条件付けによる高度に制御可能な17Bパラメータ拡散変換器(Base LPM)のトレーニング、低レイテンシで無限長のインタラクションのための因果ストリーミングジェネレータ(Online LPM)への蒸留を行う。
LPM 1.0は、IDを意識した参照を持つキャラクタイメージが与えられた場合、ユーザオーディオからリスニングビデオを生成し、合成オーディオから音声を合成し、テキストプロンプトで動画制御を行う。
したがって、LPM 1.0は会話エージェント、ライブストリーミング文字、ゲームNPCのビジュアルエンジンとして機能する。
この設定を体系的に評価するために,対話型キャラクタ性能の最初のベンチマークであるLPM-Benchを提案する。
LPM 1.0は、リアルタイム推論を維持しながら、すべての評価された次元にわたる最先端の結果を達成する。
関連論文リスト
- Soul: Breathe Life into Digital Human for High-fidelity Long-term Multimodal Animation [70.86886231976439]
Soulは、高忠実な長期デジタルヒューマンアニメーションのためのフレームワークである。
単一のフレームのポートレートイメージ、テキストプロンプト、オーディオからセマンティックコヒーレントなビデオを生成する。
正確な唇の同期、鮮やかな表情、堅牢なアイデンティティ保存を実現している。
論文 参考訳(メタデータ) (2025-12-15T16:25:56Z) - LiveStar: Live Streaming Assistant for Real-World Online Video Understanding [67.71551356747948]
LiveStarは、適応的なストリーミングデコーディングを通じて常時オンのプロアクティブ応答を実現する、先駆的なライブストリーミングアシスタントである。
LiveStar は,(1) 可変長ビデオストリームに対する漸進的なビデオ言語アライメントの実現,動的に進化するフレームシーケンス間の時間的一貫性の維持,(2) 単一前方通過検証による最適なプロアクティブ応答タイミングを決定する応答サイレンスデコードフレームワーク,(3) 最大端メモリ圧縮による10分以上のビデオのオンライン推論によるメモリ認識アクセラレーション,およびストリーミングキー値キャッシュを併用して1.53倍高速推論を実現する。
論文 参考訳(メタデータ) (2025-11-07T15:00:37Z) - Bind-Your-Avatar: Multi-Talking-Character Video Generation with Dynamic 3D-mask-based Embedding Router [72.29811385678168]
MM-DiTベースのモデルであるBind-Your-Avatarを紹介した。
具体的には,音とキャラクタの対応制御に対処するために,誰が誰と何を話し合うのかを結合する,きめ細かい埋め込みルータを組み込んだ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T17:50:16Z) - OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。
具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。
提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文 参考訳(メタデータ) (2025-05-26T17:55:06Z) - OmniTalker: One-shot Real-time Text-Driven Talking Audio-Video Generation With Multimodal Style Mimicking [22.337906095079198]
我々はOmniTalkerについて述べる。OmniTalkerは、入力テキストから同期音声ビデオコンテンツを共同で生成する統合フレームワークである。
本フレームワークは,2分岐拡散変換器(DiT)アーキテクチャを採用し,一方は音声生成に,もう一方はビデオ合成に用いている。
論文 参考訳(メタデータ) (2025-04-03T09:48:13Z) - StreamMind: Unlocking Full Frame Rate Streaming Video Dialogue through Event-Gated Cognition [20.608124640950276]
超FPSストリーミングビデオ処理を実現するビデオLLMフレームワークStreamMind(A100では100fps)を紹介する。
我々は「イベント付きLLM呼び出し」という新たな認知認知時間間パラダイムを提案する。
Ego4D と SoccerNet ストリーミングタスクの実験は、標準的なオフラインベンチマークと同様に、モデル能力とリアルタイム効率の両方における最先端のパフォーマンスを実証している。
論文 参考訳(メタデータ) (2025-03-08T13:44:38Z) - MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice [32.11839495981128]
MagicInfiniteは、多種多様な現実的な人間、フルボディの人物、スタイル化されたアニメキャラクターに高い忠実度をもたらす。
裏面のビューを含むさまざまな顔のポーズをサポートし、正確に話者を指定するための入力マスク付きの単文字または複数文字のアニメイトをサポートする。
論文 参考訳(メタデータ) (2025-03-07T23:21:11Z) - MEMO: Memory-Guided Diffusion for Expressive Talking Video Generation [55.95148886437854]
メモリ誘導EMO (Memory-guided EMOtion-aware diffusion) は、音声による映像を生成するエンドツーエンドのポートレートアニメーション手法である。
MEMOは、多様な画像とオーディオタイプ、全体的な品質、オーディオ-リップ同期、アイデンティティの整合性、表現-感情アライメントにおいて、よりリアルな会話ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:57:26Z) - Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。
このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文 参考訳(メタデータ) (2020-12-14T07:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。