論文の概要: FlowAct-R1: Towards Interactive Humanoid Video Generation
- arxiv url: http://arxiv.org/abs/2601.10103v1
- Date: Thu, 15 Jan 2026 06:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.011489
- Title: FlowAct-R1: Towards Interactive Humanoid Video Generation
- Title(参考訳): FlowAct-R1:インタラクティブなヒューマノイドビデオ生成を目指して
- Authors: Lizhen Wang, Yongming Zhu, Zhipeng Ge, Youwei Zheng, Longhao Zhang, Tianshu Hu, Shiyang Qin, Mingshuang Luo, Jiaxu Zhang, Xin Chen, Yulong Wang, Zerong Zheng, Jianwen Jiang, Chao Liang, Weifeng Chen, Xing Wang, Yuan Zhang, Mingyuan Gao,
- Abstract要約: FlowAct-R1は、リアルタイムインタラクティブなヒューマノイドビデオ生成用に特別に設計されたフレームワークである。
我々のフレームワークは、480pの解像度で25fpsの安定を実現し、F(Time-to-first-frame)は1.5秒程度しか持たない。
- 参考スコア(独自算出の注目度): 37.04996721172613
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive humanoid video generation aims to synthesize lifelike visual agents that can engage with humans through continuous and responsive video. Despite recent advances in video synthesis, existing methods often grapple with the trade-off between high-fidelity synthesis and real-time interaction requirements. In this paper, we propose FlowAct-R1, a framework specifically designed for real-time interactive humanoid video generation. Built upon a MMDiT architecture, FlowAct-R1 enables the streaming synthesis of video with arbitrary durations while maintaining low-latency responsiveness. We introduce a chunkwise diffusion forcing strategy, complemented by a novel self-forcing variant, to alleviate error accumulation and ensure long-term temporal consistency during continuous interaction. By leveraging efficient distillation and system-level optimizations, our framework achieves a stable 25fps at 480p resolution with a time-to-first-frame (TTFF) of only around 1.5 seconds. The proposed method provides holistic and fine-grained full-body control, enabling the agent to transition naturally between diverse behavioral states in interactive scenarios. Experimental results demonstrate that FlowAct-R1 achieves exceptional behavioral vividness and perceptual realism, while maintaining robust generalization across diverse character styles.
- Abstract(参考訳): インタラクティブなヒューマノイドビデオ生成は、連続的かつレスポンシブなビデオを通して人間と関わることができる、生命のような視覚エージェントを合成することを目的としている。
近年のビデオ合成の進歩にもかかわらず、既存の手法は高忠実度合成とリアルタイムの相互作用要求のトレードオフに悩まされることが多い。
本稿では,リアルタイム対話型ヒューマノイドビデオ生成のためのフレームワークであるFlowAct-R1を提案する。
MMDiTアーキテクチャに基づいて構築されたFlowAct-R1は、低レイテンシ応答性を維持しながら、任意の期間でビデオのストリーミング合成を可能にする。
本稿では,新たな自己強制変種によって補完されるチャンクワイド拡散強制戦略を導入し,エラーの蓄積を緩和し,連続的相互作用における長期的時間的一貫性を確保する。
効率的な蒸留とシステムレベルの最適化を生かして,約1.5秒で480pの安定25fpsを実現した。
提案手法は,対話的なシナリオにおいて,エージェントが多様な行動状態間で自然に遷移することを可能にする,全体的かつきめ細かな全体制御を提供する。
実験結果から,FlowAct-R1は多様なキャラクタスタイルにまたがる堅牢な一般化を維持しつつ,異常な行動の鮮明さと知覚的リアリズムを実現することが示された。
関連論文リスト
- LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation [35.01134463094784]
汎用多目的対話型AIシステムを構築するためには,拡散によるリアルタイムビデオ生成が不可欠である。
既存の蒸留法では、モデルが自己回帰し、サンプリング工程を減らしてこれを緩和することができる。
本論文は,テキスト,画像,音声を含むマルチモーダル環境下でのリアルタイム対話型ビデオ拡散を目標とし,そのギャップを埋める。
論文 参考訳(メタデータ) (2025-12-29T16:17:36Z) - StreamAvatar: Streaming Diffusion Models for Real-Time Interactive Human Avatars [32.75338796722652]
本研究では,リアルタイム対話型ストリーミングに高忠実度映像拡散モデルを適用するための2段階の自己回帰適応・加速フレームワークを提案する。
自然な話し方と聞き方の両方をコヒーレントなジェスチャーで生成できるワンショット対話型アバターモデルを開発した。
提案手法は, 生成品質, リアルタイム効率, インタラクション自然性において, 既存のアプローチを超越して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2025-12-26T15:41:24Z) - Interact2Ar: Full-Body Human-Human Interaction Generation via Autoregressive Diffusion Models [80.28579390566298]
テキスト条件付き自己回帰拡散モデルであるInteract2Arを導入する。
ハンドキネマティクスは専用のパラレルブランチを通じて組み込まれ、高忠実度フルボディ生成を可能にする。
我々のモデルは、時間的動きの合成、外乱へのリアルタイム適応、ディヤディックからマルチパーソンシナリオへの拡張など、一連のダウンストリームアプリケーションを可能にする。
論文 参考訳(メタデータ) (2025-12-22T18:59:50Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length [57.458450695137664]
提案するLive Avatarは,効率的,高忠実,無限長アバター生成のためのアルゴリズム設計のフレームワークである。
ライブアバターは、このスケールで実用的でリアルタイムで高忠実なアバター生成を実現するのが最初である。
論文 参考訳(メタデータ) (2025-12-04T11:11:24Z) - AsynFusion: Towards Asynchronous Latent Consistency Models for Decoupled Whole-Body Audio-Driven Avatars [71.90109867684025]
全体オーディオ駆動型アバターポーズと表現生成は、生命に似たデジタル人間を作るための重要なタスクである。
本稿では,拡散変換器を応用し,結合表現とジェスチャ合成を実現する新しいフレームワークAsynFusionを提案する。
AsynFusionは、リアルタイムで同期された全身アニメーションを生成する際に最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-21T03:28:53Z) - Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion [0.881371061335494]
本稿では,ストリーミングジェスチャ生成のための新しいフレームワークであるAccelerated Rolling Diffusionを紹介する。
RDLAはノイズスケジュールをステップワイドのはしごに再構成し、複数のフレームを同時に復調できる。
これにより、動作一貫性を維持しながらサンプリング効率が大幅に向上し、最大2倍のスピードアップが達成される。
論文 参考訳(メタデータ) (2025-03-13T15:54:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。