論文の概要: MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
- arxiv url: http://arxiv.org/abs/2508.19320v2
- Date: Thu, 28 Aug 2025 09:15:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 11:47:01.200675
- Title: MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation
- Title(参考訳): MIDAS:リアルタイム自動回帰ビデオ生成によるマルチモーダルインタラクティブデジタルフムアン合成
- Authors: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Songlin Tang, Jiwen Liu, Borui Liao, Hejia Chen, Xiaoqiang Liu, Pengfei Wan,
- Abstract要約: 本稿では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
本フレームワークは,音声,ポーズ,テキストを含むマルチモーダルな条件符号化を受け入れ,空間的・意味的コヒーレントな表現を出力する。
これを支援するために,複数の情報源から約2万時間に及ぶ大規模対話データセットを構築した。
- 参考スコア(独自算出の注目度): 23.343080324521434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, interactive digital human video generation has attracted widespread attention and achieved remarkable progress. However, building such a practical system that can interact with diverse input signals in real time remains challenging to existing methods, which often struggle with heavy computational cost and limited controllability. In this work, we introduce an autoregressive video generation framework that enables interactive multimodal control and low-latency extrapolation in a streaming manner. With minimal modifications to a standard large language model (LLM), our framework accepts multimodal condition encodings including audio, pose, and text, and outputs spatially and semantically coherent representations to guide the denoising process of a diffusion head. To support this, we construct a large-scale dialogue dataset of approximately 20,000 hours from multiple sources, providing rich conversational scenarios for training. We further introduce a deep compression autoencoder with up to 64$\times$ reduction ratio, which effectively alleviates the long-horizon inference burden of the autoregressive model. Extensive experiments on duplex conversation, multilingual human synthesis, and interactive world model highlight the advantages of our approach in low latency, high efficiency, and fine-grained multimodal controllability.
- Abstract(参考訳): 近年,インタラクティブなデジタルビデオ生成が注目され,目覚ましい進歩を遂げている。
しかし、様々な入力信号とリアルタイムに対話できるような実用的なシステムを構築することは、計算コストと制限された制御性に苦しむ既存の手法では依然として困難である。
本研究では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
標準大言語モデル (LLM) に最小限の変更を加えて, 音声, ポーズ, テキストを含むマルチモーダルな条件符号化を受け入れ, 空間的, 意味的に一貫性のある表現を出力し, 拡散ヘッドの認知過程を導出する。
これを支援するために、複数の情報源から約2万時間に及ぶ大規模対話データセットを構築し、訓練のための豊富な対話シナリオを提供する。
さらに,64$\times$還元比の深部圧縮オートエンコーダを導入することで,自己回帰モデルの長軸推論負担を効果的に軽減する。
低レイテンシ、高効率、きめ細かなマルチモーダル制御性における我々のアプローチの利点を浮き彫りにしている。
関連論文リスト
- LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [65.53676584955686]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Multimodal Latent Language Modeling with Next-Token Diffusion [111.93906046452125]
マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
論文 参考訳(メタデータ) (2024-12-11T18:57:32Z) - Efficient Long-duration Talking Video Synthesis with Linear Diffusion Transformer under Multimodal Guidance [36.99310116405025]
長期合成は、高品質、ポートレート、時間的一貫性、計算効率を同時に達成する上で、永続的な課題に直面している。
本稿では,マルチモーダルガイダンスと新しいメモリバンク機構を組み込んだトランスフォーマー拡散フレームワークであるLetsTalkを紹介する。
実験により、LetsTalkは時間的コヒーレントでリアルな会話ビデオを実現し、多様性と活力を高めつつ、従来の手法よりも8つのパラメータで顕著な効率を維持していることが示された。
論文 参考訳(メタデータ) (2024-11-24T04:46:00Z) - Large Body Language Models [1.9797215742507548]
本稿では,LBLM(Large Body Language Models)とLBLM-AVA(LBLMアーキテクチャ)を紹介する。このアーキテクチャは,Transformer-XL大言語モデルと並列化拡散モデルを組み合わせて,マルチモーダル入力(テキスト,音声,ビデオ)からヒューマンライクなジェスチャーを生成する。
LBLM-AVAは、Frecheのジェスチャー距離(FGD)を30%削減し、Frecheの知覚距離(Inception Distance)を25%改善し、ライフライクで文脈的に適切なジェスチャーを生成する上で、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-21T21:48:24Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - A Comprehensive Multi-scale Approach for Speech and Dynamics Synchrony in Talking Head Generation [16.033455552126348]
マルチスケール音声-視覚同期損失とマルチスケール自動回帰GANを提案する。
マルチモーダル入力ピラミッド上でシンセサイザーモデルのスタックをトレーニングし、これらのモデルをマルチスケールジェネレータネットワークのガイダンスとして利用する。
実験により、頭部運動の動的品質の最先端よりも顕著な改善が示された。
論文 参考訳(メタデータ) (2023-07-04T08:29:59Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。