論文の概要: SingingBot: An Avatar-Driven System for Robotic Face Singing Performance
- arxiv url: http://arxiv.org/abs/2601.02125v1
- Date: Mon, 05 Jan 2026 13:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.161848
- Title: SingingBot: An Avatar-Driven System for Robotic Face Singing Performance
- Title(参考訳): SingingBot: ロボットによる顔の歌声パフォーマンスのためのアバター駆動システム
- Authors: Zhuoxiong Xu, Xuanchen Li, Yuhao Cheng, Fei Xu, Yichao Yan, Xiaokang Yang,
- Abstract要約: 本稿では,ロボット歌唱をアピールする新しいアバター駆動型フレームワークを提案する。
我々はまず、人間の前身に埋め込まれたポートレートビデオ生成モデルを活用して、鮮やかな歌唱アバターを合成する。
これらの顔の特徴は、幅広い表現空間にまたがる意味指向マッピング機能を介してロボットに伝達される。
- 参考スコア(独自算出の注目度): 44.72357540996392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipping robotic faces with singing capabilities is crucial for empathetic Human-Robot Interaction. However, existing robotic face driving research primarily focuses on conversations or mimicking static expressions, struggling to meet the high demands for continuous emotional expression and coherence in singing. To address this, we propose a novel avatar-driven framework for appealing robotic singing. We first leverage portrait video generation models embedded with extensive human priors to synthesize vivid singing avatars, providing reliable expression and emotion guidance. Subsequently, these facial features are transferred to the robot via semantic-oriented mapping functions that span a wide expression space. Furthermore, to quantitatively evaluate the emotional richness of robotic singing, we propose the Emotion Dynamic Range metric to measure the emotional breadth within the Valence-Arousal space, revealing that a broad emotional spectrum is crucial for appealing performances. Comprehensive experiments prove that our method achieves rich emotional expressions while maintaining lip-audio synchronization, significantly outperforming existing approaches.
- Abstract(参考訳): 歌唱能力を持つロボット顔の取得は、共感的な人間-ロボットインタラクションに不可欠である。
しかし、既存のロボット顔駆動の研究は主に会話や静的表現の模倣に焦点を当てており、歌唱における継続的な感情表現とコヒーレンスに対する高い要求を満たすのに苦慮している。
そこで本研究では,ロボット歌唱をアピールする新しいアバター駆動型フレームワークを提案する。
まず,人間の手話に埋め込まれたポートレートビデオ生成モデルを用いて,鮮やかな歌唱アバターを合成し,信頼性の高い表現と感情指導を提供する。
その後、これらの顔の特徴は、幅広い表現空間にまたがる意味指向マッピング機能を介してロボットに伝達される。
さらに,ロボット歌唱の感情の豊かさを定量的に評価するために,ヴァレンス・オーラル空間内の感情の広さを測定するための感情ダイナミックレンジ尺度を提案する。
本手法は口唇音の同期を保ちながら豊かな感情表現を実現し,既存の手法よりも優れていたことが,包括的実験により証明された。
関連論文リスト
- EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。
外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。
EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-28T10:02:06Z) - Taming Transformer for Emotion-Controllable Talking Face Generation [61.835295250047196]
本稿では,感情制御可能な発話顔生成タスクを個別に行うための新しい手法を提案する。
具体的には、2つの事前学習戦略を用いて、音声を独立したコンポーネントに分解し、映像を視覚トークンの組み合わせに定量化する。
我々は、複数の感情的オーディオで調整された映像の感情を制御するMEADデータセット上で実験を行う。
論文 参考訳(メタデータ) (2025-08-20T02:16:52Z) - Real-Time Imitation of Human Head Motions, Blinks and Emotions by Nao Robot: A Closed-Loop Approach [2.473948454680334]
本稿では,ロボットによる人間の頭部の動きをリアルタイムに再現するための新しいアプローチを提案する。
MediaPipeをコンピュータビジョンライブラリとして、DeepFaceを感情認識ライブラリとして使用することにより、この研究は人間の頭の動きの微妙さを捉えようとしている。
提案手法は,自閉症児のコミュニケーション改善を約束し,より効果的なインタラクションのための貴重なツールを提供する。
論文 参考訳(メタデータ) (2025-04-28T17:01:54Z) - EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - EmoGene: Audio-Driven Emotional 3D Talking-Head Generation [47.6666060652434]
EmoGeneは、正確な感情表現を備えた高忠実でオーディオ駆動型ビデオポートレートのためのフレームワークである。
本手法では,顔のランドマークを生成するために,可変オートエンコーダ(VAE)ベースのオーディオ・トゥ・モーション・モジュールを用いる。
NeRFベースの感情ビデオモジュールは、リアルな感情的なトーキングヘッドビデオを表示する。
論文 参考訳(メタデータ) (2024-10-07T08:23:05Z) - Driving Animatronic Robot Facial Expression From Speech [7.8799497614708605]
本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。
提案手法は線形スキン (LBS) を統一表現として用い, エンボディメント設計とモーション合成の両面での革新を導く。
このアプローチは、1台のNvidia GTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に非常にリアルな表情を生成する能力を示す。
論文 参考訳(メタデータ) (2024-03-19T12:11:57Z) - GMTalker: Gaussian Mixture-based Audio-Driven Emotional Talking Video Portraits [60.05683966405544]
GMTalkerはガウスの混合合成による感情的な音声画像生成フレームワークである。
具体的には,よりフレキシブルな感情操作を実現するために,連続的かつ不整合な潜在空間を提案する。
また,多種多様な頭部ポーズ,瞬き,眼球運動を生成するために,大規模データセット上で事前訓練された正規化フローベースモーションジェネレータを導入する。
論文 参考訳(メタデータ) (2023-12-12T19:03:04Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - ProxEmo: Gait-based Emotion Learning and Multi-view Proxemic Fusion for
Socially-Aware Robot Navigation [65.11858854040543]
本稿では,歩行者間のロボットナビゲーションのための感情予測アルゴリズムProxEmoを提案する。
提案手法は歩行歩行から歩行者の知覚された感情を予測し,感情誘導ナビゲーションに使用する。
論文 参考訳(メタデータ) (2020-03-02T17:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。