論文の概要: GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents
- arxiv url: http://arxiv.org/abs/2303.14613v3
- Date: Wed, 10 May 2023 05:41:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-11 16:30:55.608004
- Title: GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents
- Title(参考訳): GestureDiffuCLIP:CLIP潜伏剤を用いたジェスチャ拡散モデル
- Authors: Tenglong Ao, Zeyi Zhang, Libin Liu
- Abstract要約: GestureDiffuCLIPは、フレキシブルなスタイル制御を備えたリアルでスタイル化された音声合成ジェスチャを合成するためのニューラルネットワークフレームワークである。
本システムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,CLIP表現をジェネレータに注入する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することができる。
- 参考スコア(独自算出の注目度): 2.825323579996619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The automatic generation of stylized co-speech gestures has recently received
increasing attention. Previous systems typically allow style control via
predefined text labels or example motion clips, which are often not flexible
enough to convey user intent accurately. In this work, we present
GestureDiffuCLIP, a neural network framework for synthesizing realistic,
stylized co-speech gestures with flexible style control. We leverage the power
of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and
present a novel CLIP-guided mechanism that extracts efficient style
representations from multiple input modalities, such as a piece of text, an
example motion clip, or a video. Our system learns a latent diffusion model to
generate high-quality gestures and infuses the CLIP representations of style
into the generator via an adaptive instance normalization (AdaIN) layer. We
further devise a gesture-transcript alignment mechanism that ensures a
semantically correct gesture generation based on contrastive learning. Our
system can also be extended to allow fine-grained style control of individual
body parts. We demonstrate an extensive set of examples showing the flexibility
and generalizability of our model to a variety of style descriptions. In a user
study, we show that our system outperforms the state-of-the-art approaches
regarding human likeness, appropriateness, and style correctness.
- Abstract(参考訳): 近年,スタイリングされた共同音声ジェスチャーの自動生成が注目されている。
従来のシステムでは,事前に定義されたテキストラベルやモーションクリップによるスタイルコントロールが可能で,ユーザの意図を正確に伝えるには柔軟性に欠けることが多い。
本稿では,フレキシブルなスタイル制御による,リアルでスタイリッシュなコスピーチジェスチャを合成するニューラルネットワークフレームワークであるjuicediffuclipを提案する。
本稿では,CLIP(Contrastive-Language-Image-Pre-Training)モデルのパワーを活用し,テキストやモーションクリップ,ビデオなどの複数の入力モードから,効率的なスタイル表現を抽出する新しいCLIP誘導機構を提案する。
我々のシステムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,適応インスタンス正規化(AdaIN)層を介してスタイルのCLIP表現をジェネレータに注入する。
さらに、コントラスト学習に基づく意味論的に正しいジェスチャー生成を可能にするジェスチャー記述アライメント機構を考案する。
我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することもできる。
我々は、様々なスタイル記述に対するモデルの柔軟性と一般化性を示す、広範な例を示します。
ユーザ・スタディにおいて,本システムは,人間の類似性,適切性,スタイル正確性に関する最先端のアプローチを上回っていることを示す。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - StyleInject: Parameter Efficient Tuning of Text-to-Image Diffusion Models [35.732715025002705]
StyleInject(スタイルインジェクション)は、テキスト・ツー・イメージ・モデルに適した特殊な微調整アプローチである。
入力信号の特性に基づいて視覚特徴のばらつきを調整することで、様々なスタイルに適応する。
これは、コミュニティが調整した様々な高度な生成モデルから学習し、拡張するのに特に有効である。
論文 参考訳(メタデータ) (2024-01-25T04:53:03Z) - UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons [16.52004713662265]
本稿では,異なる骨格を持つ複数のジェスチャーデータセットに基づいて学習した,拡散モデルに基づく音声駆動ジェスチャー合成手法を提案する。
次に、局所的注意と自己注意を用いた拡散モデルアーキテクチャに基づいて、音声とジェスチャーの相関関係を抽出する。
実験により、UnifiedGestureは、CCA、FGD、人間類似性の観点から、音声駆動ジェスチャ生成における最近のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-09-13T16:07:25Z) - CALM: Conditional Adversarial Latent Models for Directable Virtual
Characters [71.66218592749448]
本研究では,ユーザが制御する対話型仮想キャラクタに対して,多種多様かつ指示可能な振る舞いを生成するための条件付き適応潜在モデル(CALM)を提案する。
模倣学習を用いて、CALMは人間の動きの複雑さを捉える動きの表現を学び、キャラクターの動きを直接制御できる。
論文 参考訳(メタデータ) (2023-05-02T09:01:44Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - ZeroEGGS: Zero-shot Example-based Gesture Generation from Speech [6.8527462303619195]
我々は、ゼロショットスタイル制御を例に挙げ、音声駆動ジェスチャ生成のためのニューラルネットワークフレームワークZeroEGGSを提案する。
我々のモデルはスタイル埋め込みを学習するために変分フレームワークを使用し、遅延空間操作やスタイル埋め込みのブレンディングやスケーリングによるスタイルの変更を容易にする。
本研究では, 動作の自然性, 発話, スタイルの描写において, 従来の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-15T18:34:30Z) - CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。
本稿では,CLIP-Adapterを提案する。
様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2021-10-09T11:39:30Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z) - Style Transfer for Co-Speech Gesture Animation: A Multi-Speaker
Conditional-Mixture Approach [46.50460811211031]
鍵となる課題は、ターゲット話者「B」のジェスチャースタイルで発話エージェント「A」のジェスチャーを生成するモデルを学習することである。
本研究では,複数の話者に対して1つのモデルを訓練し,各話者のジェスチャーに固有のスタイルの埋め込みを学習するMix-StAGEを提案する。
Mix-StAGEはスタイルとジェスチャーの内容が混在しているため、単にスタイル埋め込みを切り替えることで、同じ入力音声のジェスチャースタイルを変更することができる。
論文 参考訳(メタデータ) (2020-07-24T15:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。