Fugu-MT 論文翻訳(概要): Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication

論文の概要: Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication

arxiv url: http://arxiv.org/abs/2403.19467v1
Date: Thu, 28 Mar 2024 14:47:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 15:54:24.444353
Title: Beyond Talking -- Generating Holistic 3D Human Dyadic Motion for Communication
Title（参考訳）: 講演を超えて - コミュニケーションのためのホロスティックな3次元動作の生成
Authors: Mingze Sun, Chao Xu, Xinyu Jiang, Yang Liu, Baigui Sun, Ruqi Huang,
Abstract要約: 本稿では,人間のコミュニケーションに焦点をあてた革新的なタスクを紹介し,話者と聴取者の両方に対して3次元の全体的人間の動きを生成することを目的とする。話者とリスナーのリアルタイム相互影響を考察し,新しい連鎖型トランスフォーマーに基づく自己回帰モデルを提案する。提案手法は,2つのベンチマークデータセット上での最先端性能を示す。
参考スコア（独自算出の注目度）: 17.294279444027563
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this paper, we introduce an innovative task focused on human communication, aiming to generate 3D holistic human motions for both speakers and listeners. Central to our approach is the incorporation of factorization to decouple audio features and the combination of textual semantic information, thereby facilitating the creation of more realistic and coordinated movements. We separately train VQ-VAEs with respect to the holistic motions of both speaker and listener. We consider the real-time mutual influence between the speaker and the listener and propose a novel chain-like transformer-based auto-regressive model specifically designed to characterize real-world communication scenarios effectively which can generate the motions of both the speaker and the listener simultaneously. These designs ensure that the results we generate are both coordinated and diverse. Our approach demonstrates state-of-the-art performance on two benchmark datasets. Furthermore, we introduce the HoCo holistic communication dataset, which is a valuable resource for future research. Our HoCo dataset and code will be released for research purposes upon acceptance.
Abstract（参考訳）: 本稿では,話し手と聞き手の両方に対して3次元の総合的な人間の動きを生成することを目的とした,人間のコミュニケーションに焦点を当てた革新的なタスクを紹介する。我々のアプローチの中心は、音声特徴を分離する分解とテキスト意味情報の組み合わせを組み込むことで、より現実的で協調的な運動の創出を容易にすることである。 VQ-VAEを話者とリスナーの両方の総体的動作に対して個別に訓練する。本稿では, 話者とリスナーのリアルタイム相互影響を考察し, 話者とリスナーの両方の動作を同時に生成できる実世界のコミュニケーションシナリオを効果的に特徴付けるために, チェーンライクなトランスフォーマーに基づく自己回帰モデルを提案する。これらの設計は、私たちが生成した結果が協調的かつ多様なものであることを保証します。提案手法は,2つのベンチマークデータセット上での最先端性能を示す。さらに,将来研究に有用なHoCo全体通信データセットについても紹介する。私たちのHoCoデータセットとコードは、受け入れられる前に研究目的でリリースされます。

関連論文リスト

Seamless Interaction: Dyadic Audiovisual Motion Modeling and Large-Scale Dataset [113.25650486482762]
4000時間以上の対面インタラクション映像の大規模な収集であるSeamless Interactionデータセットを紹介した。このデータセットは、ダイドの具体的ダイナミクスを理解するAIテクノロジの開発を可能にする。そこで我々は,このデータセットを用いて,人間の発話に適応した動作ジェスチャーと表情を生成するモデル群を開発した。
論文参考訳（メタデータ） (2025-06-27T18:09:49Z)
NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文参考訳（メタデータ） (2025-06-01T12:01:40Z)
Inter-Diffusion Generation Model of Speakers and Listeners for Effective Communication [4.49451692966442]
本稿では,効果的なコミュニケーションのための話者と聞き手の拡散間生成モデルを提案する。初めて、リスナーのフルボディジェスチャーを生成フレームワークに統合する。
論文参考訳（メタデータ） (2025-05-08T07:00:58Z)
Co$^{3}$Gesture: Towards Coherent Concurrent Co-speech 3D Gesture Generation with Interactive Diffusion [42.421118899819106]
Co$3$Gestureは、コヒーレントな同時音声ジェスチャー合成を可能にする新しいフレームワークである。本稿では、2つの話者のジェスチャーシーケンス間の時間的関連表現をモデル化するための時間的相互作用モジュール(TIM)を提案する。本手法は,新たに収集したGES-Interデータセットの最先端モデルよりも優れている。
論文参考訳（メタデータ） (2025-05-03T08:51:19Z)
Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか? 第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか? 第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文参考訳（メタデータ） (2025-02-26T17:26:36Z)
It Takes Two: Real-time Co-Speech Two-person's Interaction Generation via Reactive Auto-regressive Diffusion Model [34.94330722832987]
会話中の2文字の動的動きを合成するための音声駆動自動回帰システムを提案する。我々の知る限りでは、オンライン方式で2文字の対話型フルボディモーションを生成できる最初のシステムである。
論文参考訳（メタデータ） (2024-12-03T12:31:44Z)
Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文参考訳（メタデータ） (2024-10-21T11:57:56Z)
Combo: Co-speech holistic 3D human motion generation and efficient customizable adaptation in harmony [55.26315526382004]
共同音声合成のための新しいフレームワークComboを提案する。特に、興味の生成モデルにおけるマルチインプット・マルチプル・アウトプットの性質として、基本的な課題があげられる。コンボは高品質な動きを生み出すのに非常に効果的であるが、アイデンティティや感情の伝達にも効果的である。
論文参考訳（メタデータ） (2024-08-18T07:48:49Z)
Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文参考訳（メタデータ） (2024-04-10T13:24:27Z)
Towards Variable and Coordinated Holistic Co-Speech Motion Generation [21.244719987338243]
本稿では,3次元アバターの音声合成におけるライフライクな音声合成の問題点について述べる。 ProbTalkは,音声における顔,手,体の動きを協調的にモデル化する統合確率的フレームワークである。
論文参考訳（メタデータ） (2024-03-30T13:41:57Z)
FaceTalk: Audio-Driven Motion Diffusion for Neural Parametric Head Models [85.16273912625022]
音声信号から人間の頭部の高忠実度3次元動作系列を合成するための新しい生成手法であるFaceTalkを紹介する。我々の知る限りでは、人間の頭部の現実的で高品質な運動合成のための生成的アプローチを提案するのはこれが初めてである。
論文参考訳（メタデータ） (2023-12-13T19:01:07Z)
HOI-Diff: Text-Driven Synthesis of 3D Human-Object Interactions using Diffusion Models [42.62823339416957]
テキストのプロンプトによって駆動される現実的な3次元物体間相互作用(HOI)を創出する問題に対処する。まず、入力テキストに条件付けされた人間と物体の両方の動きを生成するための二重分岐拡散モデル(HOI-DM)を開発する。また,人間と物体の接触領域を予測するためのアベイランス予測拡散モデル(APDM)を開発した。
論文参考訳（メタデータ） (2023-12-11T17:41:17Z)
Interactive Conversational Head Generation [68.76774230274076]
対面会話における1つのインターロケータの振る舞いを合成するための新しい対話ヘッド生成ベンチマークを提案する。長時間・複数回会話に参加可能なインターロカクタを自動的に合成する機能は不可欠であり、様々なアプリケーションにメリットを提供する。
論文参考訳（メタデータ） (2023-07-05T08:06:26Z)
Curriculum Learning for Goal-Oriented Semantic Communications with a Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文参考訳（メタデータ） (2022-04-21T22:36:06Z)
Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文参考訳（メタデータ） (2022-04-18T17:58:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。