論文の概要: Archon: A Unified Multimodal Model for Holistic Digital Human Generation
- arxiv url: http://arxiv.org/abs/2605.30311v1
- Date: Thu, 28 May 2026 17:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.649999
- Title: Archon: A Unified Multimodal Model for Holistic Digital Human Generation
- Title(参考訳): Archon: ホロスティックデジタルヒューマンジェネレーションのための統一型マルチモーダルモデル
- Authors: Chong Bao, Shichen Liu, Lijun Yu, David Futschik, Stylianos Moschoglou, Shefali Srivastava, Ziqian Bai, Feitong Tan, Guofeng Zhang, Zhaopeng Cui, Sean Fanello, Yinda Zhang,
- Abstract要約: Archonは完全に事前訓練された、人間中心の総合的なアバター生成のための統合マルチモーダルモデルである。
7つのモダリティをモダリティ特異的なトークン化器と結合し、同期されたモダリティに基づいて事前訓練されたネイティブな自己回帰統一マルチモーダルモデルである。
モダリティの代替連鎖において、曖昧なクロスモーダルなタスクを段階的思考に分解する「モダリティにおけるシンキング」を提案する。
- 参考スコア(独自算出の注目度): 39.73522369958662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital humans are fundamental to immersive interaction, yet creating a unified model for holistic modalities, including text, audio, motion, and visual content, remains an open challenge. In this paper, we present Archon, a fully pretrained, human-centric unified multimodal model for holistic avatar generation. Archon unifies seven modalities with modality-specific tokenizers, and a native autoregressive unified multimodal model pretrained on synchronized modalities and 72 diverse tasks to model holistic joint distributions. To address the token explosion challenge in high-fidelity talking videos, we introduce a memory-efficient semantic video reparameterization, achieving 4x token reduction while preserving fine-grained dynamics, coupled with a semantic-driven video diffusion decoder. We further propose a "Thinking in Modality" that decomposes ambiguous cross-modal tasks into stepwise thinking in an alternative chain of modality, progressively enhancing fidelity and controllability. Extensive experiments demonstrate that Archon achieves superior or comparable performance across diverse digital human generation tasks, validating the effectiveness of our unified framework. Project page: https://zju3dv.github.io/archon/.
- Abstract(参考訳): デジタル人間は没入型インタラクションの基本であるが、テキスト、オーディオ、モーション、ビジュアルコンテンツなど、全体的なモダリティの統一モデルを作成することは、依然としてオープンな課題である。
本稿では,完全事前学習型,人間中心型統合マルチモーダルモデルであるArchonについて述べる。
アルコンは7つのモダリティをモダリティ特異的なトークン化器と統合し、同期されたモダリティに事前訓練されたネイティブな自己回帰的統一マルチモーダルモデルと72の多様なタスクを総合的な関節分布をモデル化する。
高忠実度音声ビデオにおけるトークン爆発問題に対処するため、メモリ効率のよいセマンティックビデオ再パラメータ化を導入し、微細なダイナミックスを維持しながら4倍のトークン削減を実現し、セマンティック駆動ビデオ拡散デコーダと組み合わせた。
さらに,不明瞭なクロスモーダルなタスクを段階的に,モダリティの代替的連鎖に分解し,忠実度と可制御性を漸進的に向上させる「モダリティのシンキング」を提案する。
大規模な実験により、Archonは様々なデジタルヒューマンジェネレーションタスクにおいて優れた、あるいは同等のパフォーマンスを達成し、統合されたフレームワークの有効性を検証した。
プロジェクトページ: https://zju3dv.github.io/archon/。
関連論文リスト
- AR-Omni: A Unified Autoregressive Model for Any-to-Any Generation [60.02195766025208]
我々は、専門家のデコーダを使わずに、自己回帰パラダイムにおける統一された任意のモデルであるAR-Omniを提案する。
AR-Omniは自動回帰テキストと画像生成をサポートし、ストリーミング音声生成もサポートしている。
タスク認識損失再重み付けによるモダリティ不均衡、画像トークンに対する軽量トークンレベルの知覚的アライメント損失による視覚的忠実度、有限状態復号機構による安定性・創造性トレードオフの3つの実践的問題に対処する。
論文 参考訳(メタデータ) (2026-01-25T09:17:36Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - MIDAS: Multimodal Interactive Digital-humAn Synthesis via Real-time Autoregressive Video Generation [23.343080324521434]
本稿では,インタラクティブなマルチモーダル制御と低遅延外挿を可能にする自動回帰ビデオ生成フレームワークを提案する。
本フレームワークは,音声,ポーズ,テキストを含むマルチモーダルな条件符号化を受け入れ,空間的・意味的コヒーレントな表現を出力する。
これを支援するために,複数の情報源から約2万時間に及ぶ大規模対話データセットを構築した。
論文 参考訳(メタデータ) (2025-08-26T14:00:16Z) - EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation [8.214084596349744]
EchoMimicV3はマルチタスクとマルチモーダルアニメーションを統合する効率的なフレームワークである。
最小のモデルサイズが13億のEchoMimicV3は、定量評価と定性評価の両方で競合性能を達成する。
論文 参考訳(メタデータ) (2025-07-05T05:36:26Z) - HaploOmni: Unified Single Transformer for Multimodal Video Understanding and Generation [69.34266162474836]
本稿では,マルチモーダル理解と生成を統一する単一トランスフォーマーを構築するための,効率的なトレーニングパラダイムについて検討する。
機能事前スケーリングとマルチモーダルAdaLN技術を導入し、クロスモーダル互換性の課題に対処する。
本稿では,新しいマルチモーダルトランスであるHaplo Omniを紹介する。
論文 参考訳(メタデータ) (2025-06-03T15:14:00Z) - Multi-identity Human Image Animation with Structural Video Diffusion [73.38728096088732]
emph Structure Video Diffusionは、現実的なマルチヒューマンビデオを生成するための新しいフレームワークである。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。