論文の概要: Incorporating Spatial Awareness in Data-Driven Gesture Generation for Virtual Agents
- arxiv url: http://arxiv.org/abs/2408.04127v1
- Date: Wed, 7 Aug 2024 23:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-09 17:00:24.131768
- Title: Incorporating Spatial Awareness in Data-Driven Gesture Generation for Virtual Agents
- Title(参考訳): 仮想エージェントのためのデータ駆動ジェスチャー生成における空間認識の導入
- Authors: Anna Deichler, Simon Alexanderson, Jonas Beskow,
- Abstract要約: 本稿では,仮想エージェントの非言語行動,特にジェスチャーに空間的コンテキストを組み込むことにより,人間とエージェントのコミュニケーションを向上させることに焦点を当てる。
近年の音声合成の進歩は, 自然な動きを生み出すが, 動作範囲をヴォイドに限定するデータ駆動方式が主流となっている。
本研究の目的は、シーン情報を音声によるジェスチャー合成に組み込むことにより、これらの手法を拡張することである。
- 参考スコア(独自算出の注目度): 17.299991009921307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on enhancing human-agent communication by integrating spatial context into virtual agents' non-verbal behaviors, specifically gestures. Recent advances in co-speech gesture generation have primarily utilized data-driven methods, which create natural motion but limit the scope of gestures to those performed in a void. Our work aims to extend these methods by enabling generative models to incorporate scene information into speech-driven gesture synthesis. We introduce a novel synthetic gesture dataset tailored for this purpose. This development represents a critical step toward creating embodied conversational agents that interact more naturally with their environment and users.
- Abstract(参考訳): 本稿では,仮想エージェントの非言語行動,特にジェスチャーに空間的コンテキストを組み込むことにより,人間とエージェントのコミュニケーションを向上させることに焦点を当てる。
近年の音声合成の進歩は, 自然な動きを生み出すが, 動作範囲をヴォイドに限定するデータ駆動方式が主流となっている。
本研究の目的は、シーン情報を音声によるジェスチャー合成に組み込むことにより、これらの手法を拡張することである。
この目的に適した新しい合成ジェスチャーデータセットを提案する。
この開発は、環境やユーザとより自然に対話する、具体化された会話エージェントを作成するための重要なステップである。
関連論文リスト
- Autonomous Character-Scene Interaction Synthesis from Text Instruction [45.255215402142596]
そこで本研究では,単一テキスト命令と目標位置から直接,多段階のシーン認識インタラクション動作を合成するフレームワークを提案する。
提案手法では,次の動作セグメントを自動回帰拡散モデルで合成し,各動作ステージの遷移を予測する自律スケジューラを用いる。
本稿では,40種類の動作を含む120の屋内シーンにおいて,16時間の動作シーケンスからなる総合的な動きキャプチャーデータセットについて述べる。
論文 参考訳(メタデータ) (2024-10-04T06:58:45Z) - Learning Generalizable Human Motion Generator with Reinforcement Learning [95.62084727984808]
テキスト駆動型ヒューマンモーション生成は、コンピュータ支援コンテンツ作成において重要なタスクの1つである。
既存の方法は訓練データ中の特定の動作表現に過度に適合することが多く、一般化する能力を妨げている。
一般化可能なヒューマンモーション生成のための強化学習において,パスとエラーのパラダイムを取り入れた textbfInstructMotion を提案する。
論文 参考訳(メタデータ) (2024-05-24T13:29:12Z) - Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - Generating Human Interaction Motions in Scenes with Text Control [66.74298145999909]
本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。
我々のアプローチは、シーンに依存しないテキスト-モーション拡散モデルの事前学習から始まります。
トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。
論文 参考訳(メタデータ) (2024-04-16T16:04:38Z) - THOR: Text to Human-Object Interaction Diffusion via Relation Intervention [51.02435289160616]
我々は、リレーショナルインターベンション(THOR)を用いたテキスト誘導型ヒューマンオブジェクト相互作用拡散モデルを提案する。
各拡散段階において、テキスト誘導された人間と物体の動きを開始し、その後、人と物体の関係を利用して物体の動きに介入する。
テキスト記述をシームレスに統合するText2HOIデータセットであるText-BEHAVEを,現在最大規模で公開されている3D HOIデータセットに構築する。
論文 参考訳(メタデータ) (2024-03-17T13:17:25Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - Controllable Human-Object Interaction Synthesis [77.56877961681462]
本研究では,3次元シーンにおける同期物体の動きと人間の動きを生成するための制御可能な人間-物体相互作用合成(CHOIS)を提案する。
ここでは,高レベルな計画から効果的に抽出できるスタイルや意図を言語記述が通知し,シーン内の動きをグラウンド化する。
我々のモジュールは経路計画モジュールとシームレスに統合され、3D環境における長期的相互作用の生成を可能にします。
論文 参考訳(メタデータ) (2023-12-06T21:14:20Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - GestureGPT: Toward Zero-Shot Free-Form Hand Gesture Understanding with Large Language Model Agents [35.48323584634582]
本稿では,人間のジェスチャー理解を模倣する自由形式の手ジェスチャー理解フレームワークであるGestureGPTを紹介する。
我々のフレームワークは、複数の大規模言語モデルエージェントを利用してジェスチャーや文脈情報を管理し、合成する。
私たちは、スマートホームコントロールとオンラインビデオストリーミングという2つの現実シナリオの下で、私たちのフレームワークをオフラインで検証しました。
論文 参考訳(メタデータ) (2023-10-19T15:17:34Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - A Comprehensive Review of Data-Driven Co-Speech Gesture Generation [11.948557523215316]
このような共同音声ジェスチャの自動生成は、コンピュータアニメーションにおける長年の問題である。
ジェスチャー生成は最近、人間のジェスチャー動作のデータセットがより大きくなったため、関心が高まっている。
本稿では,特に深層生成モデルに着目した共同音声ジェスチャ生成研究を要約する。
論文 参考訳(メタデータ) (2023-01-13T00:20:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。