論文の概要: GesGPT: Speech Gesture Synthesis With Text Parsing from GPT
- arxiv url: http://arxiv.org/abs/2303.13013v1
- Date: Thu, 23 Mar 2023 03:30:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 15:52:39.326715
- Title: GesGPT: Speech Gesture Synthesis With Text Parsing from GPT
- Title(参考訳): GesGPT:GPTからのテキスト解析による音声ジェスチャー合成
- Authors: Nan Gao, Zeyu Zhao, Zhi Zeng, Shuwu Zhang, Dongdong Weng
- Abstract要約: 本稿では,Large Language Models (LLM) のセマンティック分析機能を活用したジェスチャ生成手法であるGesGPTを提案する。
本手法は,ジェスチャ生成をGPTに基づく意図的分類問題に変換する素早い原理の開発を必要とする。
実験結果から,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成することが示された。
- 参考スコア(独自算出の注目度): 3.460205195650911
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gesture synthesis has gained significant attention as a critical research
area, focusing on producing contextually appropriate and natural gestures
corresponding to speech or textual input. Although deep learning-based
approaches have achieved remarkable progress, they often overlook the rich
semantic information present in the text, leading to less expressive and
meaningful gestures. We propose GesGPT, a novel approach to gesture generation
that leverages the semantic analysis capabilities of Large Language Models
(LLMs), such as GPT. By capitalizing on the strengths of LLMs for text
analysis, we design prompts to extract gesture-related information from textual
input. Our method entails developing prompt principles that transform gesture
generation into an intention classification problem based on GPT, and utilizing
a curated gesture library and integration module to produce semantically rich
co-speech gestures. Experimental results demonstrate that GesGPT effectively
generates contextually appropriate and expressive gestures, offering a new
perspective on semantic co-speech gesture generation.
- Abstract(参考訳): ジェスチャー合成は、文脈的に適切で自然なジェスチャーを音声やテキスト入力に対応付けることに焦点を当て、重要な研究領域として注目されている。
深層学習に基づくアプローチは目覚ましい進歩を遂げているが、しばしばテキストに存在する豊かな意味情報を見落とし、表現力や意味のあるジェスチャーを少なくする。
本稿では,GPT などの大規模言語モデル (LLM) の意味解析機能を活用したジェスチャ生成手法である GesGPT を提案する。
テキスト解析におけるLLMの強みを活かして,テキスト入力からジェスチャー関連情報を抽出するプロンプトを設計する。
提案手法は,ジェスチャ生成をGPTに基づく意図的分類問題に変換する素早い原理の確立と,構造化ジェスチャライブラリと統合モジュールを用いて意味豊かな音声合成を行う。
実験の結果,GesGPTは文脈的に適切かつ表現力のあるジェスチャーを効果的に生成し,意味的共同音声ジェスチャ生成の新しい視点を提供することがわかった。
関連論文リスト
- Text2Grasp: Grasp synthesis by text prompts of object grasping parts [4.031699584957737]
この手は、物体をつかみ、操作する人間の能力において重要な役割を担っている。
人間の意図やタスクレベルの言語を、本来のあいまいさを把握するための制御信号として利用する既存の方法。
本研究では,より精密な制御が可能なオブジェクト把握部であるText2Graspのテキストプロンプトによって導かれるグリップ合成手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T10:57:27Z) - ConvoFusion: Multi-Modal Conversational Diffusion for Co-Speech Gesture Synthesis [50.69464138626748]
マルチモーダルなジェスチャー合成のための拡散に基づくアプローチであるConvoFusionを提案する。
提案手法は,条件の異なる条件が与える影響をユーザが調節できる2つの誘導目標を提案する。
本手法は,モノログジェスチャを生成するか,会話ジェスチャを生成するかの訓練が可能である。
論文 参考訳(メタデータ) (2024-03-26T17:59:52Z) - VGSG: Vision-Guided Semantic-Group Network for Text-based Person Search [51.9899504535878]
テキストに基づく人物検索のための視覚誘導セマンティック・グループ・ネットワーク(VGSG)を提案する。
VGSGでは、視覚関連テキストの特徴を抽出するために視覚誘導の注意が用いられる。
関係知識伝達の助けを借りて、VGKTは意味群テキスト特徴と対応する視覚特徴とを整合させることができる。
論文 参考訳(メタデータ) (2023-11-13T17:56:54Z) - Large language models in textual analysis for gesture selection [2.5169522472327404]
大規模言語モデル(LLM)を用いて,これらの強力なデータモデルがジェスチャ解析や生成に適応可能であることを示す。
具体的には、最小限のプロンプトに基づいてデザイナの意図を実現できるコンテキスト固有のジェスチャーを提案するツールとしてChatGPTを使用しました。
論文 参考訳(メタデータ) (2023-10-04T14:46:37Z) - LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation [41.42316077949012]
セマンティクスを意識した音声ジェスチャー生成を実現するフレームワークであるLivelySpeakerを紹介する。
本手法では,タスクをスクリプトベースのジェスチャー生成とオーディオガイドによるリズム改善の2段階に分割する。
新たな2段階生成フレームワークでは,妊娠スタイルの変更など,いくつかの応用が可能となった。
論文 参考訳(メタデータ) (2023-09-17T15:06:11Z) - ESTextSpotter: Towards Better Scene Text Spotting with Explicit Synergy
in Transformer [88.61312640540902]
明示的な構文に基づくテキストスポッティング変換フレームワーク(ESTextSpotter)を紹介する。
本モデルは,1つのデコーダ内におけるテキスト検出と認識のための識別的,インタラクティブな特徴をモデル化することにより,明示的な相乗効果を実現する。
実験結果から,本モデルが従来の最先端手法よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-08-20T03:22:23Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - QPGesture: Quantization-Based and Phase-Guided Motion Matching for
Natural Speech-Driven Gesture Generation [8.604430209445695]
音声によるジェスチャー生成は、人間の動きのランダムなジッタのため、非常に困難である。
本稿では,新しい量子化に基づく位相誘導型モーションマッチングフレームワークを提案する。
本手法は,音声によるジェスチャー生成における近年の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:31:25Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。