論文の概要: X-Streamer: Unified Human World Modeling with Audiovisual Interaction
- arxiv url: http://arxiv.org/abs/2509.21574v1
- Date: Thu, 25 Sep 2025 20:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.007688
- Title: X-Streamer: Unified Human World Modeling with Audiovisual Interaction
- Title(参考訳): X-Streamer: 視覚インタラクションを用いた統一されたヒューマンワールドモデリング
- Authors: You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Guoxian Song, Xiaochen Zhao, Chao Liang, Jianwen Jiang, Hongyi Xu, Linjie Luo,
- Abstract要約: X-Streamerは、テキスト、音声、ビデオ間の無限の相互作用が可能なデジタルヒューマンエージェントを構築するためのフレームワークである。
中心となるのは、マルチモーダル理解と生成を統一するThinker-Actorデュアルトランスフォーマーアーキテクチャである。
X-Streamerは2つのA100 GPU上でリアルタイムに動作し、一貫したビデオチャット体験を数時間持続する。
- 参考スコア(独自算出の注目度): 36.50697656708077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce X-Streamer, an end-to-end multimodal human world modeling framework for building digital human agents capable of infinite interactions across text, speech, and video within a single unified architecture. Starting from a single portrait, X-Streamer enables real-time, open-ended video calls driven by streaming multimodal inputs. At its core is a Thinker-Actor dual-transformer architecture that unifies multimodal understanding and generation, turning a static portrait into persistent and intelligent audiovisual interactions. The Thinker module perceives and reasons over streaming user inputs, while its hidden states are translated by the Actor into synchronized multimodal streams in real time. Concretely, the Thinker leverages a pretrained large language-speech model, while the Actor employs a chunk-wise autoregressive diffusion model that cross-attends to the Thinker's hidden states to produce time-aligned multimodal responses with interleaved discrete text and audio tokens and continuous video latents. To ensure long-horizon stability, we design inter- and intra-chunk attentions with time-aligned multimodal positional embeddings for fine-grained cross-modality alignment and context retention, further reinforced by chunk-wise diffusion forcing and global identity referencing. X-Streamer runs in real time on two A100 GPUs, sustaining hours-long consistent video chat experiences from arbitrary portraits and paving the way toward unified world modeling of interactive digital humans.
- Abstract(参考訳): X-Streamerは、テキスト、音声、ビデオ間の無限の相互作用が可能なデジタルヒューマンエージェントを単一の統一アーキテクチャで構築するための、エンドツーエンドのマルチモーダルヒューマンワールドモデリングフレームワークである。
単一のポートレートから始まるX-Streamerは、マルチモーダル入力をストリーミングすることによって、リアルタイムでオープンなビデオ通話を可能にする。
中心となるのはThinker-Actorのデュアルトランスフォーマーアーキテクチャで、マルチモーダルな理解と生成を統一し、静的なポートレートを永続的でインテリジェントなオーディオ視覚インタラクションに変換する。
Thinkerモジュールはストリーミングユーザの入力よりも原因を認識し、隠れた状態はアクターによってリアルタイムで同期されたマルチモーダルストリームに変換される。
具体的には、Thinkerは事前訓練された大きな言語音声モデルを活用する一方、アクターはチャンクワイドな自己回帰拡散モデルを使用して、Thinkerの隠された状態と交差して、インターリーブされた離散テキストとオーディオトークンと連続したビデオラテントで、タイムアラインなマルチモーダル応答を生成する。
長時間の水平安定性を確保するため,細粒度相互モーダルアライメントとコンテキスト保持のための時間整列型マルチモーダル埋め込みによるチャンク間およびチャンク間アテンションを設計し,さらにチャンクワイド・ディフュージョン・フォースとグローバル・アイデンティティ・レファレンスにより強化した。
X-Streamerは2つのA100 GPU上でリアルタイムで動作し、任意のポートレートから何時間も一貫したビデオチャット体験を維持し、インタラクティブなデジタル人間の世界モデリングへの道を歩む。
関連論文リスト
- U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation [48.6868174403074]
我々は,高知能マルチモーダル対話のための最初の統一システムであるU-Mindを紹介する。
リアルタイム生成と共同モデル言語、音声、モーション、ビデオ合成をサポートする。
U-Mindは様々なマルチモーダルインタラクションタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-27T07:07:02Z) - LiveTalk: Real-Time Multimodal Interactive Video Diffusion via Improved On-Policy Distillation [35.01134463094784]
汎用多目的対話型AIシステムを構築するためには,拡散によるリアルタイムビデオ生成が不可欠である。
既存の蒸留法では、モデルが自己回帰し、サンプリング工程を減らしてこれを緩和することができる。
本論文は,テキスト,画像,音声を含むマルチモーダル環境下でのリアルタイム対話型ビデオ拡散を目標とし,そのギャップを埋める。
論文 参考訳(メタデータ) (2025-12-29T16:17:36Z) - MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation [59.23161833385837]
音声対話理解・生成のための新しいマルチモーダルフレームワークMAViDを提案する。
本フレームワークは,ユーザのマルチモーダルクエリを正確に解釈し,鮮明かつコンテキスト的にコヒーレントなロングデュレーション対話を生成できる。
論文 参考訳(メタデータ) (2025-12-02T18:55:53Z) - MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation [23.343080324521434]
本稿では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
本フレームワークは,音声,ポーズ,テキストを含むマルチモーダルな条件符号化を受け入れ,空間的・意味的コヒーレントな表現を出力する。
これを支援するために,複数の情報源から約2万時間に及ぶ大規模対話データセットを構築した。
論文 参考訳(メタデータ) (2025-08-26T14:00:16Z) - AlignDiT: Multimodal Aligned Diffusion Transformer for Synchronized Speech Generation [65.06374691172061]
マルチモーダル・トゥ・音声タスクは、映画製作、ダビング、仮想アバターなど、幅広い応用によって注目を集めている。
既存の手法は、音声の了解性、音声とビデオの同期、音声の自然さ、および参照話者との音声類似性の制限に悩まされている。
本稿では,アライメントされたマルチモーダル入力から正確な,同期化,自然な音声を生成するマルチモーダルアラインド拡散変換器AlignDiTを提案する。
論文 参考訳(メタデータ) (2025-04-29T10:56:24Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。