論文の概要: Realistic Lip Motion Generation Based on 3D Dynamic Viseme and Coarticulation Modeling for Human-Robot Interaction
- arxiv url: http://arxiv.org/abs/2604.01756v1
- Date: Thu, 02 Apr 2026 08:24:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.610385
- Title: Realistic Lip Motion Generation Based on 3D Dynamic Viseme and Coarticulation Modeling for Human-Robot Interaction
- Title(参考訳): 人-ロボットインタラクションのための3次元動的ビセムと協調モデルに基づくリアルな唇運動生成
- Authors: Sheng Li, Jingcheng Huang, Min Li,
- Abstract要約: 本稿では,3次元動的ビセムと協調モデルに基づく唇運動生成フレームワークを提案する。
提案アーキテクチャの有効性と精度を実験的に検証し,実証した。
本研究は,ヒューマノイドロボットの音声駆動リップモーション生成において,軽量で効率的かつ実用的なパラダイムを提供する。
- 参考スコア(独自算出の注目度): 11.131577042400844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Realistic lip synchronization is essential for the natural human-robot non-verbal interaction of humanoid robots. Motivated by this need, this paper presents a lip motion generation framework based on 3D dynamic viseme and coarticulation modeling. By analyzing Chinese pronunciation theory, a 3D dynamic viseme library is constructed based on the ARKit standard, which offers coherent prior trajectories of lips. To resolve motion conflicts within continuous speech streams, a coarticulation mechanism is developed by incorporating initial-final (Shengmu-Yunmu) decoupling and energy modulation. After developing a strategy to retarget high-dimensional spatial lip motion to a 14-DOF lip actuation system of a humanoid head platform, the efficiency and accuracy of the proposed architecture is experimentally validated and demonstrated with quantitative ablation experiments using the metrics of the Pearson Correlation Coefficient (PCC) and the Mean Absolute Jerk (MAJ). This research offers a lightweight, efficient, and highly practical paradigm for the speech-driven lip motion generation of humanoid robots. The 3D dynamic viseme library and real-world deployment videos are available at {https://github.com/yuesheng21/Phoneme-to-Lip-14DOF}
- Abstract(参考訳): リアルな唇同期は、ヒト型ロボットの自然な人間-ロボット非言語的相互作用に不可欠である。
そこで本研究では,3次元動的ビセムとコーアティキュレーションモデリングに基づく唇運動生成フレームワークを提案する。
中国語発音理論を解析することにより、3次元動的ビセムライブラリがARKit標準に基づいて構築され、唇のコヒーレントな先行軌跡を提供する。
連続音声ストリーム内の動作競合を解決するために,初期最終(Shengmu-Yunmu)デカップリングとエネルギー変調を組み込むことにより,協調機構を開発する。
ヒューマノイドヘッドプラットフォームにおける高次元空間唇運動を14-DOF口唇運動系に再ターゲットする戦略を開発した後、Pearson correlation Coefficient (PCC) とMean Absolute Jerk (MAJ) の測定値を用いて、提案アーキテクチャの有効性と精度を実験的に検証し、定量的アブレーション実験により実証した。
本研究は,ヒューマノイドロボットの音声駆動リップモーション生成において,軽量で効率的かつ実用的なパラダイムを提供する。
3D動的ビセムライブラリと実世界の展開ビデオは、https://github.com/yuesheng21/Phoneme-to-Lip-14DOF}で公開されている。
関連論文リスト
- MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction [54.36564144414704]
MeshMimicは、3Dシーンの再構築とインテリジェンスを組み込んだ革新的なフレームワークで、ヒューマノイドロボットがビデオから直接「モーション・テライン」インタラクションを学習できるようにする。
現状の3次元視覚モデルを活用することで、我々のフレームワークは、人間の軌跡と基礎となる地形や物体の3次元幾何学の両方を正確にセグメント化し再構築する。
論文 参考訳(メタデータ) (2026-02-17T17:09:45Z) - Robo3R: Enhancing Robotic Manipulation with Accurate Feed-Forward 3D Reconstruction [70.06600045165905]
3D空間認識は、一般的なロボット操作の基本であるが、信頼性が高く高品質な3D形状の取得は依然として困難である。
本稿では,RGB画像やロボットの状態から直接,正確な距離スケールのシーン形状をリアルタイムで予測する操作可能な3次元再構成モデルであるRobo3Rを紹介する。
我々は、ロボット操作のためのこの代替3Dセンシングモジュールの約束を示唆し、パフォーマンスの連続的な向上を観察する。
論文 参考訳(メタデータ) (2026-02-10T18:58:15Z) - Decoupled Generative Modeling for Human-Object Interaction Synthesis [35.78156236836254]
既存のアプローチでは、しばしば手動で指定した中間のウェイポイントを必要とし、最適化の目的を1つのネットワークに配置する。
DecHOI(Decoupled Generative Modeling for Human-Object Interaction Synthesis)を提案する。
軌道生成装置は、まず、所定のウェイポイントを伴わずに人や物体の軌道を生成し、これらの経路に作用生成条件を設けて詳細な動作を合成する。
論文 参考訳(メタデータ) (2025-12-22T05:33:59Z) - EchoMotion: Unified Human Video and Motion Generation via Dual-Modality Diffusion Transformer [64.69014756863331]
本研究では,外見と人間の動作の同時分布をモデル化するフレームワークであるEchoMotionを紹介する。
また,ビデオトークンとモーショントークンの両方に3次元位置符号化を統一したMVS-RoPEを提案する。
以上の結果から,人間の動きを明示的に表現することは出現することであり,人間中心のビデオ生成のコヒーレンスと妥当性を著しく向上させることが判明した。
論文 参考訳(メタデータ) (2025-12-21T17:08:14Z) - SViMo: Synchronized Diffusion for Video and Motion Generation in Hand-object Interaction Scenarios [48.09735396455107]
ハンドオブジェクトインタラクション(HOI)生成には、大きな応用可能性がある。
現在の3D HOIモーション生成アプローチは、事前に定義された3Dオブジェクトモデルとラボでキャプチャされたモーションデータに大きく依存している。
本稿では,同期拡散プロセス内での視覚的事前制約と動的制約を組み合わせることで,HOIビデオと動きを同時に生成するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-03T05:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。