Fugu-MT 論文翻訳(概要): MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation

論文の概要: MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation

arxiv url: http://arxiv.org/abs/2305.15740v1
Date: Thu, 25 May 2023 05:42:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 17:13:55.916147
Title: MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation
Title（参考訳）: mpe4g:共スパイクジェスチャ生成のためのマルチモーダルプリトレーニングエンコーダ
Authors: Gwantae Kim, Seonghyeok Noh, Insung Ham and Hanseok Ko
Abstract要約: 音声合成のためのマルチモーダル事前学習エンコーダを用いた新しいフレームワークを提案する。提案手法は,全ての入力モダリティが与えられた時だけでなく,入力モダリティの欠如やノイズが生じた時にも,リアルなコ音声ジェスチャーを描画する。
参考スコア（独自算出の注目度）: 18.349024345195318
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: When virtual agents interact with humans, gestures are crucial to delivering their intentions with speech. Previous multimodal co-speech gesture generation models required encoded features of all modalities to generate gestures. If some input modalities are removed or contain noise, the model may not generate the gestures properly. To acquire robust and generalized encodings, we propose a novel framework with a multimodal pre-trained encoder for co-speech gesture generation. In the proposed method, the multi-head-attention-based encoder is trained with self-supervised learning to contain the information on each modality. Moreover, we collect full-body gestures that consist of 3D joint rotations to improve visualization and apply gestures to the extensible body model. Through the series of experiments and human evaluation, the proposed method renders realistic co-speech gestures not only when all input modalities are given but also when the input modalities are missing or noisy.
Abstract（参考訳）: 仮想エージェントが人間と対話するとき、ジェスチャーは言葉で意図を伝えるのに不可欠である。従来のマルチモーダルな音声合成モデルは、ジェスチャーを生成するためにすべてのモーダルの特徴を符号化する必要がある。入力モダリティが削除されるかノイズを含む場合、モデルは適切にジェスチャーを生成することができない。頑健で一般化された符号化を実現するために,マルチモーダルプリトレーニングエンコーダを用いたジェスチャ生成のための新しい枠組みを提案する。提案手法では,マルチヘッドアテンションに基づくエンコーダを自己教師付き学習で訓練し,各モードに関する情報を含む。さらに,3次元関節回転からなる全身ジェスチャーを収集し,可視化を改善し,拡張可能な身体モデルにジェスチャーを適用した。提案手法は, 入力モダリティが与えられたときだけでなく, 入力モダリティが欠落したり, うるさかったりした場合にも, リアルなコペアジェスチャを表現できる。

関連論文リスト

Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-28T17:55:52Z)
OpenOmni: Advancing Open-Source Omnimodal Large Language Models with Progressive Multimodal Alignment and Real-Time Self-Aware Emotional Speech Synthesis [68.73476738779628]
nameは、一様アライメントと音声生成を統合する2段階のトレーニングフレームワークである。雑用、視覚言語、音声言語ベンチマークで最先端モデルを上回っている。 nameは、非自己回帰モードで1秒のレイテンシでリアルタイムの音声生成を実現する。
論文参考訳（メタデータ） (2025-01-08T15:18:09Z)
Speech2UnifiedExpressions: Synchronous Synthesis of Co-Speech Affective Face and Body Expressions from Affordable Inputs [67.27840327499625]
本稿では,デジタル文字の表情と上半身ジェスチャーを同時に合成するマルチモーダル学習手法を提案する。提案手法は, 映像データから直接推定される, まばらな顔のランドマークと上体関節から学習し, もっともらしい感情的性格運動を生成する。
論文参考訳（メタデータ） (2024-06-26T04:53:11Z)
CoCoGesture: Toward Coherent Co-speech 3D Gesture Generation in the Wild [44.401536230814465]
CoCoGestureは、目に見えない人間の音声プロンプトから鮮明で多様なジェスチャー合成を可能にする新しいフレームワークである。私たちの重要な洞察は、カスタム設計のトレーニングパラダイムに基づいています。提案するCoCoGesture は,ゼロショット音声・ジェスチャー生成における最先端手法よりも優れる。
論文参考訳（メタデータ） (2024-05-27T06:47:14Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文参考訳（メタデータ） (2023-03-04T01:42:09Z)
SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation [89.47132156950194]
本稿では,アマチュアユーザのための3Dアセット生成を簡易化する新しいフレームワークを提案する。提案手法は,人間によって容易に提供可能な様々な入力モダリティをサポートする。私たちのモデルは、これらのタスクをひとつのSwiss-army-knifeツールにまとめることができます。
論文参考訳（メタデータ） (2022-12-08T18:59:05Z)
i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文参考訳（メタデータ） (2022-05-03T23:38:50Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文参考訳（メタデータ） (2021-01-28T15:22:36Z)
Speech Gesture Generation from the Trimodal Context of Text, Audio, and Speaker Identity [21.61168067832304]
本稿では、音声テキスト、音声、話者識別のマルチモーダルコンテキストを用いてジェスチャーを確実に生成する自動ジェスチャー生成モデルを提案する。提案手法を用いた評価実験により,提案したジェスチャー生成モデルは既存のエンドツーエンド生成モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2020-09-04T11:42:45Z)
Gesticulator: A framework for semantically-aware speech-driven gesture generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文参考訳（メタデータ） (2020-01-25T14:42:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。