論文の概要: ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars
- arxiv url: http://arxiv.org/abs/2512.19546v1
- Date: Mon, 22 Dec 2025 16:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.838417
- Title: ActAvatar: Temporally-Aware Precise Action Control for Talking Avatars
- Title(参考訳): ActAvatar: 発話アバターに対する時間的高精度行動制御
- Authors: Ziqiao Peng, Yi Chen, Yifeng Ma, Guozhen Zhang, Zhiyao Sun, Zixiang Zhou, Youliang Zhang, Zhengguang Zhou, Zhaoxin Fan, Hongyan Liu, Yuan Zhou, Qinglin Lu, Jun He,
- Abstract要約: ActAvatarは、テキストガイダンスを通じて、アクション制御のフェーズレベルの精度を達成するフレームワークである。
Phase-Aware Cross-Attention (PACA) はプロンプトをグローバルベースブロックと時間的にアンコールされたフェーズブロックに分解する。
プログレッシブ・オーディオ・ビジュアル・アライメントは、階層的特徴学習プロセスとモダリティの影響を一致させる。
2段階のトレーニング戦略は、構造化アノテーションの微調整を通じてアクションコントロールを注入する。
- 参考スコア(独自算出の注目度): 28.337100940626573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant advances in talking avatar generation, existing methods face critical challenges: insufficient text-following capability for diverse actions, lack of temporal alignment between actions and audio content, and dependency on additional control signals such as pose skeletons. We present ActAvatar, a framework that achieves phase-level precision in action control through textual guidance by capturing both action semantics and temporal context. Our approach introduces three core innovations: (1) Phase-Aware Cross-Attention (PACA), which decomposes prompts into a global base block and temporally-anchored phase blocks, enabling the model to concentrate on phase-relevant tokens for precise temporal-semantic alignment; (2) Progressive Audio-Visual Alignment, which aligns modality influence with the hierarchical feature learning process-early layers prioritize text for establishing action structure while deeper layers emphasize audio for refining lip movements, preventing modality interference; (3) A two-stage training strategy that first establishes robust audio-visual correspondence on diverse data, then injects action control through fine-tuning on structured annotations, maintaining both audio-visual alignment and the model's text-following capabilities. Extensive experiments demonstrate that ActAvatar significantly outperforms state-of-the-art methods in both action control and visual quality.
- Abstract(参考訳): アバター生成の大幅な進歩にもかかわらず、既存の手法は、多様なアクションに対するテキストフォロー能力の不足、アクションとオーディオコンテンツ間の時間的アライメントの欠如、ポーズスケルトンのような追加の制御信号への依存など、重大な課題に直面している。
本稿では,アクションセマンティクスと時間的文脈の両方を捉えることで,テキスト誘導による行動制御の位相レベル精度を実現するフレームワークであるActAvatarを提案する。
提案手法では,(1)大域的ベースブロックと時間的アコレートされたフェーズブロックにプロンプトを分解するフェーズアウェア・クロス・アテンション (PACA) ,(2) 階層的特徴学習プロセスとモダリティの影響を整合させるプログレッシブ・オーディオ・アライメント (Progressive Audio-Visual Alignment) ,(2) より深いレイヤが唇の動きを洗練させ,モダリティ干渉を防止し,さらに(3) 多様なデータに対する堅牢なオーディオ・視覚的対応を最初に確立した2段階のトレーニング戦略は,アノテーションの微調整によって動作制御を誘導する。
大規模な実験により、ActAvatarはアクション制御と視覚的品質の両方において最先端の手法を大きく上回っていることが示された。
関連論文リスト
- CoordSpeaker: Exploiting Gesture Captioning for Coordinated Caption-Empowered Co-Speech Gesture Generation [44.84719308595376]
CoordSpeakerは、協調キャプションを組み込んだ音声合成を可能にする包括的なフレームワークである。
本手法は,音声とリズミカルに同期した高品質なジェスチャーと,任意のキャプションとセマンティックに協調したジェスチャーを生成する。
論文 参考訳(メタデータ) (2025-11-28T03:38:08Z) - Zero-Shot Open-Vocabulary Human Motion Grounding with Test-Time Training [39.7658823121591]
ZOMGは、アノテーションや微調整を必要とせずに、動作シーケンスを意味のあるサブアクションに分割するフレームワークである。
ZOMGは(1)言語セマンティックパーティションを統合し、大きな言語モデルを利用して命令を順序付けられたサブアクション単位に分解し、(2)ソフトマスキング最適化を行う。
3つのモーション言語データセットの実験では、HumanML3Dベンチマークにおいて、先行手法を+8.7%mAPで上回る、動作グラウンド性能の最先端の有効性と効率が示されている。
論文 参考訳(メタデータ) (2025-11-19T12:11:36Z) - Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering [53.2204901422631]
Text2Lipは、解釈可能な音声-視覚ブリッジを構築するビセメ中心のフレームワークである。
Text2Lipは、意味的忠実性、視覚的リアリズム、モダリティの堅牢性において、既存のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-04T12:50:22Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - Co-Speech Gesture Detection through Multi-Phase Sequence Labeling [3.924524252255593]
本稿では,タスクをマルチフェーズシーケンスラベリング問題として再編成する新しいフレームワークを提案する。
本稿では,タスク指向の対面対話における多様な音声ジェスチャーのデータセットについて検討する。
論文 参考訳(メタデータ) (2023-08-21T12:27:18Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Emphasis control for parallel neural TTS [8.039245267912511]
音声信号によって伝達される意味情報は、韻律の局所的な変化に強く影響される。
近年のパラレル・ニューラルテキスト・トゥ・音声(TTS)法は,高性能を維持しつつ高い忠実度で音声を生成することができる。
本稿では,重心変化に対応する潜在空間を学習することにより,韻律強調制御のための階層型並列型ニューラルネットワークTSシステムを提案する。
論文 参考訳(メタデータ) (2021-10-06T18:45:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。