論文の概要: CustomListener: Text-guided Responsive Interaction for User-friendly
Listening Head Generation
- arxiv url: http://arxiv.org/abs/2403.00274v1
- Date: Fri, 1 Mar 2024 04:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:17:53.652703
- Title: CustomListener: Text-guided Responsive Interaction for User-friendly
Listening Head Generation
- Title(参考訳): customlistener: ユーザフレンドリーなリスニングヘッド生成のためのテキストガイドレスポンシブインタラクション
- Authors: Xi Liu, Ying Guo, Cheng Zhen, Tong Li, Yingying Ao, Pengfei Yan
- Abstract要約: 話者とリスナーの動的変換の相関をモデル化することにより,非言語対応型リスナーヘッドを合成することを目的とする。
ユーザフレンドリーなフレームワークであるCustomListenerを提案する。
- 参考スコア(独自算出の注目度): 10.321833357002584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Listening head generation aims to synthesize a non-verbal responsive listener
head by modeling the correlation between the speaker and the listener in
dynamic conversion.The applications of listener agent generation in virtual
interaction have promoted many works achieving the diverse and fine-grained
motion generation. However, they can only manipulate motions through simple
emotional labels, but cannot freely control the listener's motions. Since
listener agents should have human-like attributes (e.g. identity, personality)
which can be freely customized by users, this limits their realism. In this
paper, we propose a user-friendly framework called CustomListener to realize
the free-form text prior guided listener generation. To achieve
speaker-listener coordination, we design a Static to Dynamic Portrait module
(SDP), which interacts with speaker information to transform static text into
dynamic portrait token with completion rhythm and amplitude information. To
achieve coherence between segments, we design a Past Guided Generation Module
(PGG) to maintain the consistency of customized listener attributes through the
motion prior, and utilize a diffusion-based structure conditioned on the
portrait token and the motion prior to realize the controllable generation. To
train and evaluate our model, we have constructed two text-annotated listening
head datasets based on ViCo and RealTalk, which provide text-video paired
labels. Extensive experiments have verified the effectiveness of our model.
- Abstract(参考訳): 動的変換における話者とリスナーの相関をモデル化し,非言語対応型リスナーヘッドを合成することを目的として,仮想対話におけるリスナーエージェント生成の適用により,多種多様かつきめ細かな動作生成を実現する多くの作業が促進されている。
しかし、単純な感情ラベルによってのみ動作を操作できるが、聴取者の動作を自由に制御することはできない。
リスナーエージェントは、ユーザーが自由にカスタマイズできる人間のような属性(アイデンティティ、パーソナリティなど)を持つべきであるため、現実主義は制限される。
本稿では,自由形式のテキスト先行ガイドリスナ生成を実現するために,customlistenerと呼ばれるユーザフレンドリーなフレームワークを提案する。
話者-リスナー調整を実現するため,話者情報と対話する静的・ダイナミック・ポートレート・モジュール (SDP) を設計し,完成リズムと振幅情報を用いて静的テキストを動的ポートレートトークンに変換する。
セグメント間のコヒーレンスを実現するために,先行動作によるカスタマイズされたリスナ属性の整合性を維持するために過去のガイド生成モジュール(PGG)を設計し,その制御可能な生成を実現する前に,ポートレートトークンとモーションに条件付けられた拡散に基づく構造を利用する。
我々のモデルをトレーニングし評価するために、テキストとビデオのペアラベルを提供するViCoとRealTalkに基づく2つのテキストアノテートヘッドデータセットを構築した。
広範な実験により,本モデルの有効性が検証された。
関連論文リスト
- Leveraging WaveNet for Dynamic Listening Head Modeling from Speech [11.016004057765185]
対面会話中のリスナーからの対話的コミュニケーションフィードバックをシミュレートすることを目的としたリスナー顔応答の作成。
提案手法は,聴取者のフィードバックの微妙なニュアンスを捉え,個々の聴取者のアイデンティティを確実に保持することに焦点を当てる。
論文 参考訳(メタデータ) (2024-09-08T13:19:22Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
私たちのフレームワークの中心は、事前トレーニングアプローチであるDydic Interaction Modeling(DIM)です。
実験は、リスナー動作の生成において、我々のフレームワークが優れていることを示す。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - Freetalker: Controllable Speech and Text-Driven Gesture Generation Based
on Diffusion Models for Enhanced Speaker Naturalness [45.90256126021112]
我々は、自然発生(例えば、共音声ジェスチャー)と非自然発生(例えば、表彰台を動き回る)の両方を生成するための最初のフレームワークであるFreeTalkerを紹介する。
具体的には、音声によるジェスチャーとテキストによる動作の統一表現を用いた話者動作生成のための拡散モデルについて訓練する。
論文 参考訳(メタデータ) (2024-01-07T13:01:29Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model [2.827070255699381]
diffmotion-v2は、WavLM事前学習モデルを用いた音声条件拡散に基づく生成モデルである。
生音声のみを使用して、個人的でスタイリングされたフルボディの音声合成ジェスチャを生成することができる。
論文 参考訳(メタデータ) (2023-08-11T08:03:28Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。