論文の概要: When Less Is More: A Sparse Facial Motion Structure For Listening Motion Learning
- arxiv url: http://arxiv.org/abs/2504.05748v1
- Date: Tue, 08 Apr 2025 07:25:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:28:53.269468
- Title: When Less Is More: A Sparse Facial Motion Structure For Listening Motion Learning
- Title(参考訳): より少ないとき: 動きの学習を聴くための、まばらな顔の動き構造
- Authors: Tri Tung Nguyen Nguyen, Quang Tien Dam, Dinh Tuan Tran, Joo-Ho Lee,
- Abstract要約: 本研究では,長い列をスパースなリスニングと遷移フレームに符号化することで,非言語的な顔の動きを表現・予測する新しい手法を提案する。
本手法は,重要な動作ステップを同定し,中間フレームを補間することにより,学習過程におけるインスタンスワイドの多様性を高めつつ,動作の時間的構造を保存する。
- 参考スコア(独自算出の注目度): 1.2974519529978974
- License:
- Abstract: Effective human behavior modeling is critical for successful human-robot interaction. Current state-of-the-art approaches for predicting listening head behavior during dyadic conversations employ continuous-to-discrete representations, where continuous facial motion sequence is converted into discrete latent tokens. However, non-verbal facial motion presents unique challenges owing to its temporal variance and multi-modal nature. State-of-the-art discrete motion token representation struggles to capture underlying non-verbal facial patterns making training the listening head inefficient with low-fidelity generated motion. This study proposes a novel method for representing and predicting non-verbal facial motion by encoding long sequences into a sparse sequence of keyframes and transition frames. By identifying crucial motion steps and interpolating intermediate frames, our method preserves the temporal structure of motion while enhancing instance-wise diversity during the learning process. Additionally, we apply this novel sparse representation to the task of listening head prediction, demonstrating its contribution to improving the explanation of facial motion patterns.
- Abstract(参考訳): 効果的な人間の行動モデリングは、人間とロボットの相互作用の成功に不可欠である。
ダイアディック会話中の聴取行動を予測するための最先端のアプローチでは、連続した顔の動きシーケンスを離散的な潜在トークンに変換する、連続的から離散的な表現が採用されている。
しかし、非言語的な顔の動きは、その時間的変動とマルチモーダルな性質のために固有の課題を呈している。
最先端の離散的な動きトークン表現は、基礎となる非言語的な顔パターンを捉えるのに苦労し、聴取ヘッドを低忠実な動きで非効率に訓練する。
本研究では,キーフレームとトランジションフレームのスパースシーケンスに長いシーケンスを符号化することで,非言語的な顔の動きを表現・予測する新しい手法を提案する。
本手法は,重要な動作ステップを同定し,中間フレームを補間することにより,学習過程におけるインスタンスワイドの多様性を高めつつ,動作の時間的構造を保存する。
さらに,この新しいスパース表現を聴取ヘッド予測のタスクに適用し,顔の動きのパターンの説明の改善に寄与することを示す。
関連論文リスト
- KMTalk: Speech-Driven 3D Facial Animation with Key Motion Embedding [19.15471840100407]
キーモーション埋め込みを用いた音声系列から3次元顔の動きを合成する新しい手法を提案する。
本手法は,言語に基づくキーモーション獲得とモーダル間動作完了の2つのモジュールを通じて,言語的およびデータ駆動の先行情報を統合する。
後者は、キーモーションを音声機能によって案内される3D音声のフルシーケンスに拡張し、時間的コヒーレンスとオーディオ-視覚的整合性を改善する。
論文 参考訳(メタデータ) (2024-09-02T09:41:24Z) - High-fidelity and Lip-synced Talking Face Synthesis via Landmark-based Diffusion Model [89.29655924125461]
本稿では,発話顔生成のためのランドマークに基づく新しい拡散モデルを提案する。
まず、音声から唇と顎の目印運動への不明瞭さの少ないマッピングを確立する。
そこで我々はTalkFormerと呼ばれる革新的な条件付けモジュールを導入し、合成された動きをランドマークで表現された動きと整合させる。
論文 参考訳(メタデータ) (2024-08-10T02:58:28Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - Persistent-Transient Duality: A Multi-mechanism Approach for Modeling
Human-Object Interaction [58.67761673662716]
人間は高度に適応可能で、異なるタスク、状況、状況を扱うために異なるモードを素早く切り替える。
人間と物体の相互作用(HOI)において、これらのモードは、(1)活動全体に対する大規模な一貫した計画、(2)タイムラインに沿って開始・終了する小規模の子どもの対話的行動の2つのメカニズムに起因していると考えられる。
本研究は、人間の動作を協調的に制御する2つの同時メカニズムをモデル化することを提案する。
論文 参考訳(メタデータ) (2023-07-24T12:21:33Z) - Pose-Controllable 3D Facial Animation Synthesis using Hierarchical
Audio-Vertex Attention [52.63080543011595]
階層型音声頂点アテンションを利用してポーズ制御可能な3次元顔アニメーション合成法を提案する。
提案手法により,よりリアルな表情と頭部姿勢運動が得られる。
論文 参考訳(メタデータ) (2023-02-24T09:36:31Z) - CodeTalker: Speech-Driven 3D Facial Animation with Discrete Motion Prior [27.989344587876964]
音声駆動の3D顔アニメーションは広く研究されているが、現実主義と鮮明さを達成するにはまだまだギャップがある。
本稿では,学習したコードブックの有限プロキシ空間において,音声による顔のアニメーションをコードクエリタスクとしてキャストすることを提案する。
提案手法は, 定性的かつ定量的に, 現在の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-06T05:04:32Z) - Progressive Disentangled Representation Learning for Fine-Grained
Controllable Talking Head Synthesis [15.700918566471277]
本稿では, 口唇の動き, 視線・瞬き, 頭部ポーズ, 感情表現に対して, ゆがみ, きめ細かな制御を実現するワンショット音声頭部合成法を提案する。
我々は、不整合潜在表現を介して異なる動きを表現し、画像生成器を活用して、それらから発声頭部を合成する。
論文 参考訳(メタデータ) (2022-11-26T07:52:46Z) - Dyadic Human Motion Prediction [119.3376964777803]
本稿では,2つの被験者の相互作用を明示的に推論する動き予測フレームワークを提案する。
具体的には,2つの被験者の運動履歴の相互依存をモデル化する一対の注意機構を導入する。
これにより、より現実的な方法で長期の運動力学を保ち、異常かつ高速な運動を予測することができる。
論文 参考訳(メタデータ) (2021-12-01T10:30:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。