論文の概要: TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation
- arxiv url: http://arxiv.org/abs/2408.13714v1
- Date: Sun, 25 Aug 2024 03:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 18:19:53.026423
- Title: TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation
- Title(参考訳): TalkLoRA: 音声駆動アニメーションのための低ランク適応
- Authors: Jack Saunders, Vinay Namboodiri,
- Abstract要約: 音声駆動の顔アニメーションは、テレビ、映画、ビデオゲーム、通信、AR/VRを含む多くのアプリケーションにとって重要である。
既存のトランスモデルでは,2つの問題点を識別する。第1に,パーソナライズされた話し方への適応が困難であり,第2に,トランスモデルの2次複雑さのため長文実行が遅い。
両問題に対処するためにTalkLoRAを提案する。
- 参考スコア(独自算出の注目度): 3.836669717540222
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech-driven facial animation is important for many applications including TV, film, video games, telecommunication and AR/VR. Recently, transformers have been shown to be extremely effective for this task. However, we identify two issues with the existing transformer-based models. Firstly, they are difficult to adapt to new personalised speaking styles and secondly, they are slow to run for long sentences due to the quadratic complexity of the transformer. We propose TalkLoRA to address both of these issues. TalkLoRA uses Low-Rank Adaptation to effectively and efficiently adapt to new speaking styles, even with limited data. It does this by training an adaptor with a small number of parameters for each subject. We also utilise a chunking strategy to reduce the complexity of the underlying transformer, allowing for long sentences at inference time. TalkLoRA can be applied to any transformer-based speech-driven animation method. We perform extensive experiments to show that TalkLoRA archives state-of-the-art style adaptation and that it allows for an order-of-complexity reduction in inference times without sacrificing quality. We also investigate and provide insights into the hyperparameter selection for LoRA fine-tuning of speech-driven facial animation models.
- Abstract(参考訳): 音声駆動の顔アニメーションは、テレビ、映画、ビデオゲーム、通信、AR/VRを含む多くのアプリケーションにとって重要である。
近年, この課題に対してトランスフォーマーが極めて有効であることが示されている。
しかし,既存のトランスモデルでは2つの問題がある。
第一に、新しいパーソナライズされた話し方への適応が困難であり、第二に、変換器の二次的な複雑さのために長文の実行が遅い。
両問題に対処するためにTalkLoRAを提案する。
TalkLoRAは、限られたデータであっても、Low-Rank Adaptationを使用して、新しい話し方に効果的かつ効率的に適応する。
これは、各主題に対して少数のパラメータを持つアダプタをトレーニングすることで実現します。
また、チャンキング戦略を利用して、基礎となる変換器の複雑さを減らし、推論時に長い文を書けるようにする。
TalkLoRAは、任意のトランスフォーマーベースの音声駆動アニメーション手法に適用できる。
我々は、TalkLoRAが最先端スタイルの適応をアーカイブし、品質を犠牲にすることなく、推論時間のオーダー・オブ・複雑化を可能にすることを示す広範な実験を行った。
また、音声駆動顔画像モデルのLoRA微調整のためのハイパーパラメータ選択に関する洞察も提供する。
関連論文リスト
- VoiceTextBlender: Augmenting Large Language Models with Speech Capabilities via Single-Stage Joint Speech-Text Supervised Fine-Tuning [64.56272011710735]
大規模言語モデル(LLM)のバックボーンの低ランク適応(LoRA)に対して,新しい単一段階共同音声テキストSFTアプローチを提案する。
従来のSpeechLMの7Bまたは13Bパラメータと比較すると,我々の3Bモデルは様々な音声ベンチマークにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-23T00:36:06Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis [66.43223397997559]
入力テキストに対応する高品質な音声ポートレート映像を合成することを目的としている。
この課題は、デジタルヒューマン産業における幅広い応用の見通しを持っているが、まだ技術的には達成されていない。
本稿では,Ada-TTA(Adaptive Text-to-Talking Avatar)を提案する。
論文 参考訳(メタデータ) (2023-06-06T08:50:13Z) - Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster
Fine-tuning with Less Labels in Speech Processing [66.92823764664206]
我々は、事前訓練された音声エンコーダを精査し、タスク固有のラベルを必要とせず、その表現空間を再構成する。
6つの音声処理タスクに関する実験では,タスクの微調整と一貫したタスク改善の間に顕著な収束速度が得られた。
論文 参考訳(メタデータ) (2022-10-24T08:27:09Z) - FaceFormer: Speech-Driven 3D Facial Animation with Transformers [46.8780140220063]
音声駆動の3D顔アニメーションは、人間の顔の複雑な形状と、3Dオーディオ視覚データの利用が制限されているため、難しい。
本研究では,トランスフォーマーをベースとした自動回帰モデルFaceFormerを提案し,長期音声コンテキストを符号化し,アニメーション3D顔メッシュのシーケンスを自動回帰予測する。
論文 参考訳(メタデータ) (2021-12-10T04:21:59Z) - Residual Adapters for Parameter-Efficient ASR Adaptation to Atypical and
Accented Speech [5.960279280033886]
モデルファインタニングと比較して,比較的少数の余分なパラメータをエンコーダ層に追加することにより,類似の適応ゲインが得られることを示す。
我々はこれを2つの言語適応タスク(非典型的およびアクセント付き音声)と2つの最先端のASRアーキテクチャで実証する。
論文 参考訳(メタデータ) (2021-09-14T20:04:47Z) - MultiSpeech: Multi-Speaker Text to Speech with Transformer [145.56725956639232]
Transformer-based text to speech (TTS)モデル(Transformer TTSciteli 2019neural, FastSpeechciteren 2019fastspeech)は、RNNベースのモデルよりもトレーニングと推論効率の利点を示している。
我々はMultiSpeechと呼ばれる堅牢で高品質なマルチスピーカトランスフォーマーTSシステムを開発した。
論文 参考訳(メタデータ) (2020-06-08T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。