論文の概要: Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication
- arxiv url: http://arxiv.org/abs/2403.19467v1
- Date: Thu, 28 Mar 2024 14:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:54:24.444353
- Title: Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication
- Title(参考訳): 講演を超えて - コミュニケーションのためのホロスティックな3次元動作の生成
- Authors: Mingze Sun, Chao Xu, Xinyu Jiang, Yang Liu, Baigui Sun, Ruqi Huang,
- Abstract要約: 本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。
話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
- 参考スコア(独自算出の注目度): 17.294279444027563
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we introduce an innovative task focused on human communication, aiming to generate 3D holistic human motions for both speakers and listeners. Central to our approach is the incorporation of factorization to decouple audio features and the combination of textual semantic information, thereby facilitating the creation of more realistic and coordinated movements. We separately train VQ-VAEs with respect to the holistic motions of both speaker and listener. We consider the real-time mutual influence between the speaker and the listener and propose a novel chain-like transformer-based auto-regressive model specifically designed to characterize real-world communication scenarios effectively which can generate the motions of both the speaker and the listener simultaneously. These designs ensure that the results we generate are both coordinated and diverse. Our approach demonstrates state-of-the-art performance on two benchmark datasets. Furthermore, we introduce the HoCo holistic communication dataset, which is a valuable resource for future research. Our HoCo dataset and code will be released for research purposes upon acceptance.
- Abstract(参考訳): 本稿では,話し手と聞き手の両方に対して3次元の総合的な人間の動きを生成することを目的とした,人間のコミュニケーションに焦点を当てた革新的なタスクを紹介する。
我々のアプローチの中心は、音声特徴を分離する分解とテキスト意味情報の組み合わせを組み込むことで、より現実的で協調的な運動の創出を容易にすることである。
VQ-VAEを話者とリスナーの両方の総体的動作に対して個別に訓練する。
本稿では, 話者とリスナーのリアルタイム相互影響を考察し, 話者とリスナーの両方の動作を同時に生成できる実世界のコミュニケーションシナリオを効果的に特徴付けるために, チェーンライクなトランスフォーマーに基づく自己回帰モデルを提案する。
これらの設計は、私たちが生成した結果が協調的かつ多様なものであることを保証します。
提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
さらに,将来研究に有用なHoCo全体通信データセットについても紹介する。
私たちのHoCoデータセットとコードは、受け入れられる前に研究目的でリリースされます。
関連論文リスト
- Agent-driven Generative Semantic Communication for Remote Surveillance [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では,知識に基づくソフトアクター批判アルゴリズムを利用したエージェント支援セマンティックエンコーダを提案する。
また,2つのモジュールからなる予測および生成機能を備えたセマンティックデコーダを設計する。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z) - Towards Variable and Coordinated Holistic Co-Speech Motion Generation [21.244719987338243]
本稿では,3次元アバターの音声合成におけるライフライクな音声合成の問題点について述べる。
ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。
論文 参考訳(メタデータ) (2024-03-30T13:41:57Z) - Dyadic Interaction Modeling for Social Behavior Generation [6.626277726145613]
本稿では,ダイアディックインタラクションにおける3次元顔の動きを効果的に生成するための枠組みを提案する。
既存の作業では、リスナーは話者の声や顔の動きに対する反射的な振る舞いを持つ反応剤であると考えられている。
我々のフレームワークの核心はDyadic Interaction Modeling (DIM)であり、これは話者の動作とリスナーの動きを共同でモデル化する事前学習のアプローチである。
論文 参考訳(メタデータ) (2024-03-14T03:21:33Z) - FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。
我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-12-13T19:01:07Z) - HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。
まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。
また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文 参考訳(メタデータ) (2023-12-11T17:41:17Z) - Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。
長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文 参考訳(メタデータ) (2023-07-05T08:06:26Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。