論文の概要: DiffListener: Discrete Diffusion Model for Listener Generation
- arxiv url: http://arxiv.org/abs/2502.06822v1
- Date: Wed, 05 Feb 2025 07:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:08:52.245030
- Title: DiffListener: Discrete Diffusion Model for Listener Generation
- Title(参考訳): DiffListener:リスナー生成のための離散拡散モデル
- Authors: Siyeol Jung, Taehwan Kim,
- Abstract要約: リスナーヘッド生成タスクは、話者のマルチモーダルキューに基づいて、自然な非言語的リスナー応答を生成することを目的としている。
非自己回帰型リスナーヘッド生成のための離散拡散に基づくDiffListenerを提案する。
我々のモデルは、話者の顔情報、音声、テキストを入力とし、さらに表情や動きの時間的ダイナミクスを表現するために、顔差情報を統合する。
- 参考スコア(独自算出の注目度): 2.80888070977859
- License:
- Abstract: The listener head generation (LHG) task aims to generate natural nonverbal listener responses based on the speaker's multimodal cues. While prior work either rely on limited modalities (e.g. audio and facial information) or employ autoregressive approaches which have limitations such as accumulating prediction errors. To address these limitations, we propose DiffListener, a discrete diffusion based approach for non-autoregressive listener head generation. Our model takes the speaker's facial information, audio, and text as inputs, additionally incorporating facial differential information to represent the temporal dynamics of expressions and movements. With this explicit modeling of facial dynamics, DiffListener can generate coherent reaction sequences in a non-autoregressive manner. Through comprehensive experiments, DiffListener demonstrates state-of-the-art performance in both quantitative and qualitative evaluations. The user study shows that DiffListener generates natural context-aware listener reactions that are well synchronized with the speaker. The code and demo videos are available in https://siyeoljung.github.io/DiffListener
- Abstract(参考訳): リスナーヘッド生成(LHG)タスクは、話者のマルチモーダルキューに基づいて、自然な非言語リスナー応答を生成することを目的としている。
以前の作業では、限られたモーダル(音声や顔情報など)に依存するか、あるいは予測エラーの蓄積のような制限のある自己回帰的なアプローチを採用するかのいずれかであった。
これらの制約に対処するために,非自己回帰型リスナヘッド生成のための離散拡散に基づくアプローチであるDiffListenerを提案する。
我々のモデルは、話者の顔情報、音声、テキストを入力とし、さらに表情や動きの時間的ダイナミクスを表現するために、顔の差分情報を取り入れる。
この明示的な顔力学のモデリングにより、DiffListenerは非自己回帰的な方法でコヒーレントな反応列を生成することができる。
総合的な実験を通じて、DiffListenerは定量評価と定性評価の両方において最先端のパフォーマンスを示す。
ユーザスタディでは、DiffListenerが、話者と十分に同期した自然なコンテキスト認識リスナー反応を生成することを示した。
コードとデモビデオはhttps://siyeoljung.github.io/DiffListenerで公開されている。
関連論文リスト
- DiffTED: One-shot Audio-driven TED Talk Video Generation with Diffusion-based Co-speech Gestures [27.763304632981882]
DiffTEDは、1つの画像から1ショットの音声駆動音声ビデオを生成する新しいアプローチである。
我々は拡散モデルを利用して、薄膜スプライン運動モデルのためのキーポイントのシーケンスを生成する。
実験により、DiffTEDは多様な音声のジェスチャーによる時間的コヒーレントな会話ビデオを生成することが示された。
論文 参考訳(メタデータ) (2024-09-11T22:31:55Z) - Emotional Listener Portrait: Realistic Listener Motion Simulation in
Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。
このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。
本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。
ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文 参考訳(メタデータ) (2023-09-29T18:18:32Z) - MFR-Net: Multi-faceted Responsive Listening Head Generation via
Denoising Diffusion Model [14.220727407255966]
応答型リスニングヘッド生成は,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。
我々は,textbfMulti-textbfFaceted textbfResponsive Listening Head Generation Network (MFR-Net)を提案する。
論文 参考訳(メタデータ) (2023-08-31T11:10:28Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - DiffTalk: Crafting Diffusion Models for Generalized Audio-Driven
Portraits Animation [78.08004432704826]
我々は、音声による時間的コヒーレントな認知過程(DiffTalk)としてのトーキングヘッド生成をモデル化する。
本稿では,話し顔の制御機構について検討し,人格認識型一般化合成の条件として,参照顔画像とランドマークを取り入れた。
我々のDiffTalkは、無視できる余分な計算コストで高分解能な合成に適しています。
論文 参考訳(メタデータ) (2023-01-10T05:11:25Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。