論文の概要: VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2602.07506v1
- Date: Sat, 07 Feb 2026 11:51:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.657833
- Title: VividFace: Real-Time and Realistic Facial Expression Shadowing for Humanoid Robots
- Title(参考訳): VividFace:ヒューマノイドロボットのためのリアルタイムでリアルな表情シャドーイング
- Authors: Peizhen Li, Longbing Cao, Xiao-Ming Wu, Yang Zhang,
- Abstract要約: ヒューマノイドロボットのためのリアルタイムかつリアルな表情陰影システムVividFaceを提案する。
VividFaceは、人間の表情を0.05秒以内に模倣することで、鮮やかなヒューマノイド顔を生成する。
- 参考スコア(独自算出の注目度): 37.61907490582774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humanoid facial expression shadowing enables robots to realistically imitate human facial expressions in real time, which is critical for lifelike, facially expressive humanoid robots and affective human-robot interaction. Existing progress in humanoid facial expression imitation remains limited, often failing to achieve either real-time performance or realistic expressiveness due to offline video-based inference designs and insufficient ability to capture and transfer subtle expression details. To address these limitations, we present VividFace, a real-time and realistic facial expression shadowing system for humanoid robots. An optimized imitation framework X2CNet++ enhances expressiveness by fine-tuning the human-to-humanoid facial motion transfer module and introducing a feature-adaptation training strategy for better alignment across different image sources. Real-time shadowing is further enabled by a video-stream-compatible inference pipeline and a streamlined workflow based on asynchronous I/O for efficient communication across devices. VividFace produces vivid humanoid faces by mimicking human facial expressions within 0.05 seconds, while generalizing across diverse facial configurations. Extensive real-world demonstrations validate its practical utility. Videos are available at: https://lipzh5.github.io/VividFace/.
- Abstract(参考訳): ヒューマノイドの表情のシャドーイングにより、ロボットは人間の表情をリアルタイムで現実的に模倣することができる。
既存のヒューマノイドの表情の模倣の進歩は依然として限られており、オフラインビデオベースの推論設計と微妙な表情の詳細を捉えて伝達する能力の不足により、リアルタイムのパフォーマンスや現実的な表現性を達成できないことがしばしばある。
これらの制約に対処するために、人間型ロボットのためのリアルタイムでリアルな表情影システムVividFaceを提案する。
最適化された模倣フレームワークX2CNet++は、人間から人間への顔の動き伝達モジュールを微調整し、異なる画像ソース間のアライメントを改善する機能適応トレーニング戦略を導入することにより、表現性を向上する。
さらにリアルタイムシャドーイングは、ビデオストリーム互換の推論パイプラインと、非同期I/Oに基づいた合理化されたワークフローによって実現され、デバイス間の効率的な通信が可能になる。
VividFaceは、人間の表情を0.05秒以内に模倣し、多様な顔構成を一般化することによって、鮮やかなヒューマノイド顔を生成する。
大規模な実世界のデモは、その実用性を検証する。
ビデオはhttps://lipzh5.github.io/VividFace/.comで公開されている。
関連論文リスト
- Audio Driven Real-Time Facial Animation for Social Telepresence [65.66220599734338]
最小遅延時間で3次元顔アバターをアニメーションするオーディオ駆動リアルタイムシステムを提案する。
我々のアプローチの中心は、音声信号をリアルタイムに潜在表情シーケンスに変換するエンコーダモデルである。
我々は、リアルタイムなパフォーマンスを達成しつつ、自然なコミュニケーションに必要な表情の豊富なスペクトルを捉えている。
論文 参考訳(メタデータ) (2025-10-01T17:57:05Z) - X2C: A Dataset Featuring Nuanced Facial Expressions for Realistic Humanoid Imitation [34.960259285861206]
感情的な人間とロボットのコミュニケーションに従事するヒューマノイドロボットには、現実的な表情を模倣する能力が不可欠である。
現実的なヒューマノイド模倣のためのニュアンス表情を特徴とするデータセットであるX2Cを紹介する。
ヒトからヒトへの表情模倣フレームワークであるX2CNetは、ニュアンス付きヒューマノイド表現と、その根底にある制御値との対応をX2Cから学習する。
論文 参考訳(メタデータ) (2025-05-16T11:48:19Z) - EmoDiffusion: Enhancing Emotional 3D Facial Animation with Latent Diffusion Models [66.67979602235015]
エモディフュージョン(EmoDiffusion)は、音声中の様々な感情をアンタングルしてリッチな3次元の表情を生成する新しいアプローチである。
iPhone上のLiveLinkFaceを使ってアニメーション専門家の指導の下で表情をキャプチャする。
論文 参考訳(メタデータ) (2025-03-14T02:54:22Z) - Driving Animatronic Robot Facial Expression From Speech [7.8799497614708605]
本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。
提案手法は線形スキン (LBS) を統一表現として用い, エンボディメント設計とモーション合成の両面での革新を導く。
このアプローチは、1台のNvidia GTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に非常にリアルな表情を生成する能力を示す。
論文 参考訳(メタデータ) (2024-03-19T12:11:57Z) - Audio-Driven Talking Face Generation with Diverse yet Realistic Facial
Animations [61.65012981435094]
DIRFAは、異なるが現実的な顔のアニメーションを同一の駆動音声から生成できる新しい方法である。
同一音声に対して妥当な顔のアニメーションの変動に対応するため,トランスフォーマーに基づく確率的マッピングネットワークを設計する。
DIRFAは現実的な顔のアニメーションを効果的に生成できることを示す。
論文 参考訳(メタデータ) (2023-04-18T12:36:15Z) - Emotionally Enhanced Talking Face Generation [52.07451348895041]
我々は、適切な表現でビデオを生成するために、カテゴリー的感情に基づく話し顔生成フレームワークを構築した。
モデルが任意のアイデンティティ、感情、言語に適応できることを示します。
提案するフレームワークはユーザフレンドリーなWebインターフェースを備えており,感情を伴う顔生成をリアルタイムに行うことができる。
論文 参考訳(メタデータ) (2023-03-21T02:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。