論文の概要: Speech2Properties2Gestures: Gesture-Property Prediction as a Tool for
Generating Representational Gestures from Speech
- arxiv url: http://arxiv.org/abs/2106.14736v1
- Date: Mon, 28 Jun 2021 14:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 13:46:30.273608
- Title: Speech2Properties2Gestures: Gesture-Property Prediction as a Tool for
Generating Representational Gestures from Speech
- Title(参考訳): Speech2Properties2:gesture-Property Prediction as a Tool of Representational Gestures from Speech
- Authors: Taras Kucherenko, Rajmund Nagy, Patrik Jonell, Michael Neff, Hedvig
Kjellstr\"om, Gustav Eje Henter
- Abstract要約: 本研究では,ジェスチャ生成のための新しいフレームワークを提案する。
提案手法はまずジェスチャーを予測し,次にジェスチャー特性の予測を行う。
- 参考スコア(独自算出の注目度): 9.859003149671807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new framework for gesture generation, aiming to allow
data-driven approaches to produce more semantically rich gestures. Our approach
first predicts whether to gesture, followed by a prediction of the gesture
properties. Those properties are then used as conditioning for a modern
probabilistic gesture-generation model capable of high-quality output. This
empowers the approach to generate gestures that are both diverse and
representational.
- Abstract(参考訳): 本研究では,より意味的にリッチなジェスチャーを生成するための,データ駆動型アプローチを実現するためのジェスチャー生成フレームワークを提案する。
提案手法はまずジェスチャーを予測し,次にジェスチャー特性の予測を行う。
これらの特性は、高品質な出力が可能な現代の確率的ジェスチャー生成モデルの条件付けとして使用される。
これは多様で表現力のあるジェスチャーを生成するアプローチに力を与えます。
関連論文リスト
- Semantic Gesticulator: Semantics-Aware Co-Speech Gesture Synthesis [25.822870767380685]
本稿では,セマンティック・ゲスティキュレータについて述べる。セマンティック・ジェスチャは,セマンティック・ジェスチャを強力なセマンティック・アセプティクスで合成するためのフレームワークである。
本システムでは,リズミカルコヒーレントかつセマンティックな動作を生成する上で,ロバスト性を示す。
我々のシステムは、意味的適切性の観点から、最先端のシステムよりも明確なマージンで優れています。
論文 参考訳(メタデータ) (2024-05-16T05:09:01Z) - DiffSHEG: A Diffusion-Based Approach for Real-Time Speech-driven Holistic 3D Expression and Gesture Generation [72.85685916829321]
DiffSHEGは、任意の長さの音声駆動型ホロスティック3次元表現とジェスチャー生成のための拡散に基づくアプローチである。
DiffSHEGは、表現的および同期的動作のリアルタイム生成を可能にすることで、デジタル人間とエンボディエージェントの開発における様々な応用の可能性を示した。
論文 参考訳(メタデータ) (2024-01-09T11:38:18Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - AQ-GT: a Temporally Aligned and Quantized GRU-Transformer for Co-Speech
Gesture Synthesis [0.0]
本稿では,量子化パイプラインを用いた生成逆数ネットワークを用いて,事前学習した部分的ジェスチャー列に対するアプローチを提案する。
空間表現を直接ベクトル表現にマッピングするのではなく、潜在空間表現のマッピングを学習することにより、非常に現実的で表現力のあるジェスチャーの生成を促進する。
論文 参考訳(メタデータ) (2023-05-02T07:59:38Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Learning Hierarchical Cross-Modal Association for Co-Speech Gesture
Generation [107.10239561664496]
協調音声ジェスチャ生成のためのHA2G(Hierarchical Audio-to-Gesture)という新しいフレームワークを提案する。
提案手法は,現実的な共同音声ジェスチャーを描画し,従来手法よりも明確なマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-03-24T16:33:29Z) - Speech Drives Templates: Co-Speech Gesture Synthesis with Learned
Templates [30.32106465591015]
共同音声ジェスチャ生成は、実際のように見えるだけでなく、入力された音声音声と一致するジェスチャーシーケンスを合成することである。
本手法は腕,手,頭部を含む完全な上半身の動きを生成する。
論文 参考訳(メタデータ) (2021-08-18T07:53:36Z) - Multimodal analysis of the predictability of hand-gesture properties [10.332200713176768]
身近な会話エージェントは、ジェスチャーで彼らのスピーチに同行できることの恩恵を受ける。
本稿では,現代ディープラーニングを用いた音声テキストおよび/または音声から,どのジェスチャー特性を予測できるかを検討する。
論文 参考訳(メタデータ) (2021-08-12T14:16:00Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Gesticulator: A framework for semantically-aware speech-driven gesture
generation [17.284154896176553]
任意のビートとセマンティックなジェスチャーを同時に生成するモデルを提案する。
深層学習に基づくモデルでは、音声の音響的表現と意味的表現の両方を入力とし、入力として関節角回転の列としてジェスチャーを生成する。
結果として得られるジェスチャーは、仮想エージェントとヒューマノイドロボットの両方に適用できる。
論文 参考訳(メタデータ) (2020-01-25T14:42:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。