論文の概要: Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07106v1
- Date: Fri, 06 Feb 2026 18:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.452397
- Title: Ex-Omni: Enabling 3D Facial Animation Generation for Omni-modal Large Language Models
- Title(参考訳): 元Omni:Omniモード大言語モデルのための3次元顔アニメーション生成の実現
- Authors: Haoyu Zhang, Zhipeng Li, Yiwen Guo, Tianshu Yu,
- Abstract要約: 提案するExpressive Omniは,大規模言語モデルに音声対応の3D顔アニメーションを付加したオープンソースフレームワークである。
元Omniは、意味論的推論を時間的生成から切り離すことによって学習の難しさを軽減する。
InstructExは、音声対応の3D顔アニメーションによるOLLMの拡張を容易にするデータセットである。
- 参考スコア(独自算出の注目度): 31.79073190007222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Omni-modal large language models (OLLMs) aim to unify multimodal understanding and generation, yet incorporating speech with 3D facial animation remains largely unexplored despite its importance for natural interaction. A key challenge arises from the representation mismatch between discrete, token-level semantic reasoning in LLMs and the dense, fine-grained temporal dynamics required for 3D facial motion, which makes direct modeling difficult to optimize under limited data. We propose Expressive Omni (Ex-Omni), an open-source omni-modal framework that augments OLLMs with speech-accompanied 3D facial animation. Ex-Omni reduces learning difficulty by decoupling semantic reasoning from temporal generation, leveraging speech units as temporal scaffolding and a unified token-as-query gated fusion (TQGF) mechanism for controlled semantic injection. We further introduce InstructEx, a dataset aims to facilitate augment OLLMs with speech-accompanied 3D facial animation. Extensive experiments demonstrate that Ex-Omni performs competitively against existing open-source OLLMs while enabling stable aligned speech and facial animation generation.
- Abstract(参考訳): Omni-modal large language model (OLLMs) は、マルチモーダルな理解と生成を統一することを目的としているが、自然な相互作用が重要であるにもかかわらず、3D顔のアニメーションを組み込んだ音声はほとんど探索されていない。
LLMにおける離散的、トークンレベルのセマンティック推論と、3次元顔の動きに必要な密度できめ細かな時間的ダイナミクスとの表現ミスマッチにより、直接モデリングを制限されたデータで最適化することが困難になる。
提案するExpressive Omni(Ex-Omni)は,OLLMを音声対応の3D顔アニメーションで拡張するオープンソースオムニモーダルフレームワークである。
元Omniは、意味推論を時間的生成から切り離し、音声単位を時間的足場として利用し、制御された意味注入のためのトークン・アズ・カリー・ゲート融合(TQGF)機構を統一することで学習の難しさを軽減する。
さらに,音声対応3D顔アニメーションによるOLLMの拡張を目的としたデータセットであるInstructExを紹介する。
大規模な実験により、Ex-Omniは既存のオープンソースOLLMと競合し、安定したアライメント音声と顔のアニメーション生成を可能にした。
関連論文リスト
- MIBURI: Towards Expressive Interactive Gesture Synthesis [62.45332399212876]
Embodied Conversational Agents (ECA) は、音声、ジェスチャー、表情を通じて人間の対面相互作用をエミュレートすることを目的としている。
既存のECAの解は、人間のような相互作用には適さない剛性で低多様性の運動を生み出す。
MIBURIは,リアルタイム音声対話と同期した表現力のあるフルボディジェスチャーと表情を生成するための,最初のオンライン因果的フレームワークである。
論文 参考訳(メタデータ) (2026-03-03T18:59:51Z) - MGM-Omni: Scaling Omni LLMs to Personalized Long-Horizon Speech [64.88639004171749]
MGM-オムニ (MGM-Omni) は、Omni-modalな理解と表現力のある長距離音声生成のための統一オムニLLMである。
MGM-Omniは、リアルタイム音声生成からマルチモーダル推論をきれいに分離するデュアルトラックのトークンベースのアーキテクチャを採用している。
論文 参考訳(メタデータ) (2025-09-29T17:48:28Z) - Efficient Listener: Dyadic Facial Motion Synthesis via Action Diffusion [91.54433928140816]
本稿では、画像生成分野からの拡散手法を導入し、効率的な顔行動生成を実現する顔行動拡散(FAD)を提案する。
さらに,話者の視覚情報と音声情報の両方を入力として扱えるように設計された,効率的なリスナーネットワーク(ELNet)を構築した。
提案手法は,FADとELNetを考慮し,効果的な顔の動き表現を学習し,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-04-29T12:08:02Z) - OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [95.27191872116306]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。
雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。
nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文 参考訳(メタデータ) (2025-01-08T15:18:09Z) - MMHead: Towards Fine-grained Multi-modal 3D Facial Animation [68.04052669266174]
大規模なマルチモーダル3次元顔アニメーションデータセットMMHeadを構築した。
MMHeadは、49時間の3D顔の動きシーケンス、音声、リッチな階層的なテキストアノテーションで構成されている。
MMHeadデータセットに基づいて,テキストによる3次元対話ヘッドアニメーションとテキストから3次元の顔の動き生成という,2つの新しいタスクのベンチマークを構築した。
論文 参考訳(メタデータ) (2024-10-10T09:37:01Z) - KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Move as You Say, Interact as You Can: Language-guided Human Motion Generation with Scene Affordance [48.986552871497]
本稿では,シーンアベイランスを中間表現として活用する新しい2段階フレームワークを提案する。
シーンアベイランスマップを活用することで,マルチモーダルな条件下での人間の動きを再現する難しさを克服する。
我々のアプローチは、HumanML3DやHUMANISEなど、確立されたベンチマークのベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-03-26T18:41:07Z) - Media2Face: Co-speech Facial Animation Generation With Multi-Modality
Guidance [41.692420421029695]
本稿では,顔の形状と画像を高一般化された表現潜在空間にマッピングする,効率的な変分自動エンコーダを提案する。
次に、GNPFAを用いて、多数のビデオから高品質な表現と正確な頭部ポーズを抽出する。
GNPFAラテント空間における拡散モデルMedia2Faceを提案する。
論文 参考訳(メタデータ) (2024-01-28T16:17:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。