Fugu-MT 論文翻訳(概要): GesGPT: Speech Gesture Synthesis With Text Parsing from GPT

論文の概要: GesGPT: Speech Gesture Synthesis With Text Parsing from GPT

arxiv url: http://arxiv.org/abs/2303.13013v1
Date: Thu, 23 Mar 2023 03:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 15:52:39.326715
Title: GesGPT: Speech Gesture Synthesis With Text Parsing from GPT
Title（参考訳）: GesGPT:GPTからのテキスト解析による音声ジェスチャー合成
Authors: Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng
Abstract要約: 本稿では,Large Language Models (LLM) のセマンティック分析機能を活用したジェスチャ生成手法であるGesGPTを提案する。本手法は,ジェスチャ生成をGPTに基づく意図的分類問題に変換する素早い原理の開発を必要とする。実験結果から,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成することが示された。
参考スコア（独自算出の注目度）: 3.460205195650911
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gesture synthesis has gained significant attention as a critical research area, focusing on producing contextually appropriate and natural gestures corresponding to speech or textual input. Although deep learning-based approaches have achieved remarkable progress, they often overlook the rich semantic information present in the text, leading to less expressive and meaningful gestures. We propose GesGPT, a novel approach to gesture generation that leverages the semantic analysis capabilities of Large Language Models (LLMs), such as GPT. By capitalizing on the strengths of LLMs for text analysis, we design prompts to extract gesture-related information from textual input. Our method entails developing prompt principles that transform gesture generation into an intention classification problem based on GPT, and utilizing a curated gesture library and integration module to produce semantically rich co-speech gestures. Experimental results demonstrate that GesGPT effectively generates contextually appropriate and expressive gestures, offering a new perspective on semantic co-speech gesture generation.
Abstract（参考訳）: ジェスチャー合成は、文脈的に適切で自然なジェスチャーを音声やテキスト入力に対応付けることに焦点を当て、重要な研究領域として注目されている。深層学習に基づくアプローチは目覚ましい進歩を遂げているが、しばしばテキストに存在する豊かな意味情報を見落とし、表現力や意味のあるジェスチャーを少なくする。本稿では,GPT などの大規模言語モデル (LLM) の意味解析機能を活用したジェスチャ生成手法である GesGPT を提案する。テキスト解析におけるLLMの強みを活かして,テキスト入力からジェスチャー関連情報を抽出するプロンプトを設計する。提案手法は,ジェスチャ生成をGPTに基づく意図的分類問題に変換する素早い原理の確立と,構造化ジェスチャライブラリと統合モジュールを用いて意味豊かな音声合成を行う。実験の結果,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成し,意味的共同音声ジェスチャ生成の新しい視点を提供することがわかった。

関連論文リスト

Modeling Turn-Taking with Semantically Informed Gestures [56.31369237947851]
マルチパーティDnD Gesture corpusの拡張であるDnD Gesture++に2,663のセマンティックジェスチャアノテーションを付加した。テキスト,音声,ジェスチャーを統合したMixture-of-Expertsフレームワークを用いてターンテイク予測をモデル化する。実験により、意味的にガイドされたジェスチャーを組み込むことで、ベースラインよりも一貫したパフォーマンス向上が得られることが示された。
論文参考訳（メタデータ） (2025-10-22T08:17:54Z)
ImaGGen: Zero-Shot Generation of Co-Speech Semantic Gestures Grounded in Language and Image Input [0.0]
本稿では, 音声合成における中核的な課題として, 言語発話にセマンティックに一貫性のある, 象徴的, あるいは難解なジェスチャーを生成することを挙げる。我々は、与えられた言語入力からジェスチャーを生成するゼロショットシステムを導入し、さらに手動のアノテーションや人間の介入なしに、想像的な入力によって通知される。本結果は,表現的かつ協調的な仮想エージェントやアバターを作成する上で,文脈認識型セマンティックジェスチャの重要性を強調した。
論文参考訳（メタデータ） (2025-10-20T15:01:56Z)
SemGes: Semantics-aware Co-Speech Gesture Generation using Semantic Coherence and Relevance Learning [0.6249768559720122]
共同音声ジェスチャ生成における意味的接地のための新しい手法を提案する。我々のアプローチは、ベクトル量子化された変分オートエンコーダによって、前もって動きを学習することから始まる。提案手法は,2つのベンチマークにおいて,音声合成における最先端手法よりも優れる。
論文参考訳（メタデータ） (2025-07-25T15:10:15Z)
Intentional Gesture: Deliver Your Intentions with Gestures for Speech [47.34315450130868]
Intentional-Gestureは、ハイレベルなコミュニケーション機能に基づく意図推論タスクとしてジェスチャ生成をキャストする新しいフレームワークである。我々のフレームワークは、デジタル人間と具体化されたAIにおいて、表現力のあるジェスチャー生成のためのモジュラー基盤を提供する。
論文参考訳（メタデータ） (2025-05-21T07:24:51Z)
Understanding Co-speech Gestures in-the-wild [52.5993021523165]
野生における音声ジェスチャー理解のための新しいフレームワークを提案する。本稿では,ジェスチャ・テキスト・音声の関連性を理解するためのモデルの能力を評価するために,3つの新しいタスクとベンチマークを提案する。我々は,これらの課題を解決するために,三モーダルな音声・テキスト・ビデオ・ジェスチャー表現を学習する新しい手法を提案する。
論文参考訳（メタデータ） (2025-03-28T17:55:52Z)
SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain [25.895313346558464]
SARGesは,大規模言語モデルを利用して意味論的に意味のあるジェスチャーを生成する新しいフレームワークである。 SARGesは、効率的なシングルパス推論により、高度にセマンティックに整合したジェスチャーラベリングを実現する。提案手法は意味的ジェスチャー合成のための解釈可能な意図推論経路を提供する。
論文参考訳（メタデータ） (2025-03-26T03:55:41Z)
Enhancing Spoken Discourse Modeling in Language Models Using Gestural Cues [56.36041287155606]
本研究では,人間の動作系列と言語を用いたジェスチャーの協調モデリングにより,音声談話モデルの改善が期待できるかどうかを考察する。ジェスチャーを言語モデルに統合するために,まずVQ-VAEを用いて3次元の人間の動作シーケンスを離散的なジェスチャートークンに符号化する。その結果,ジェスチャを組み込むことで,3つのタスクのマーカー予測精度が向上した。
論文参考訳（メタデータ） (2025-03-05T13:10:07Z)
Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-09T18:59:46Z)
Emphasizing Semantic Consistency of Salient Posture for Speech-Driven Gesture Generation [44.78811546051805]
音声駆動ジェスチャ生成は、入力音声信号と同期したジェスチャシーケンスを合成することを目的としている。従来の手法では、ニューラルネットワークを利用して、コンパクトな音声表現をジェスチャーシーケンスに直接マッピングする。そこで本稿では,姿勢のセマンティック一貫性を重視した音声によるジェスチャー生成手法を提案する。
論文参考訳（メタデータ） (2024-10-17T17:22:59Z)
ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance [11.207513771079705]
本稿では,テキストと音声情報を同期して表現力のあるフルボディジェスチャーを生成する新しいフレームワークExpGestを紹介する。 AdaINやワンホットの符号化法とは異なり、対向方向雑音を最適化するためのノイズ感情分類器を設計する。我々は, ExpGestが, 最先端モデルと比較して, 話者の表現力, 自然な, 制御可能なグローバルな動きを実現することを示す。
論文参考訳（メタデータ） (2024-10-12T07:01:17Z)
Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文参考訳（メタデータ） (2024-05-16T05:09:01Z)
Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文参考訳（メタデータ） (2024-04-17T17:59:55Z)
ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文参考訳（メタデータ） (2024-03-26T17:59:52Z)
LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文参考訳（メタデータ） (2023-09-17T15:06:11Z)
QPGesture: Quantization-Based and Phase-Guided Motion Matching for Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:31:25Z)
Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文参考訳（メタデータ） (2022-12-05T15:28:22Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文参考訳（メタデータ） (2022-03-24T16:33:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。