論文の概要: A Unified Compression Framework for Efficient Speech-Driven Talking-Face
Generation
- arxiv url: http://arxiv.org/abs/2304.00471v1
- Date: Sun, 2 Apr 2023 06:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 17:59:55.138195
- Title: A Unified Compression Framework for Efficient Speech-Driven Talking-Face
Generation
- Title(参考訳): 効率的な音声対話生成のための統一圧縮フレームワーク
- Authors: Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi,
Hyungshin Kim, Sungsu Lim
- Abstract要約: 本研究は,音声駆動音声合成のための軽量モデルの開発を目的とする。
残余ブロックを除去し、Wav2Lipからチャネル幅を小さくすることで、コンパクトなジェネレータを構築する。
また, 逆学習を伴わずに, 小容量発電機を安定かつ効果的に訓練するための知識蒸留方式を提案する。
- 参考スコア(独自算出の注目度): 4.848938971173454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual humans have gained considerable attention in numerous industries,
e.g., entertainment and e-commerce. As a core technology, synthesizing
photorealistic face frames from target speech and facial identity has been
actively studied with generative adversarial networks. Despite remarkable
results of modern talking-face generation models, they often entail high
computational burdens, which limit their efficient deployment. This study aims
to develop a lightweight model for speech-driven talking-face synthesis. We
build a compact generator by removing the residual blocks and reducing the
channel width from Wav2Lip, a popular talking-face generator. We also present a
knowledge distillation scheme to stably yet effectively train the
small-capacity generator without adversarial learning. We reduce the number of
parameters and MACs by 28$\times$ while retaining the performance of the
original model. Moreover, to alleviate a severe performance drop when
converting the whole generator to INT8 precision, we adopt a selective
quantization method that uses FP16 for the quantization-sensitive layers and
INT8 for the other layers. Using this mixed precision, we achieve up to a
19$\times$ speedup on edge GPUs without noticeably compromising the generation
quality.
- Abstract(参考訳): 仮想人間は多くの産業、例えばエンターテイメントやeコマースで注目を集めている。
中心となる技術として、ターゲット音声と顔の同一性からフォトリアリスティックな顔フレームを合成する手法が、生成的敵ネットワークで積極的に研究されている。
現代の対面生成モデルの顕著な結果にもかかわらず、それらはしばしば高い計算負担を伴い、効率的な展開を制限する。
本研究の目的は,音声対話型音声合成のための軽量モデルの開発である。
我々は,残余ブロックを除去し,一般的な音声生成装置であるWav2Lipからチャネル幅を小さくすることで,コンパクトなジェネレータを構築する。
また, 小容量発電機の安定的かつ効果的に, 逆学習を伴わない知識蒸留方式を提案する。
我々は、元のモデルの性能を維持しながら、パラメータとmacの数を28$\times$に削減する。
さらに,全ジェネレータをINT8精度に変換する際の性能低下を軽減するために,FP16を量子化に敏感な層に,INT8を他の層に,選択的な量子化手法を採用する。
この混合精度を用いて、生成品質を著しく損なうことなく、エッジGPU上で最大19$\times$スピードアップを達成する。
関連論文リスト
- Quantized neural network for complex hologram generation [0.0]
コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。
ニューラルネットワークをCGHに統合する最近の取り組みは、計算速度の高速化に成功している。
ニューラルネットワーク量子化を導入して,複雑なホログラム生成のための軽量モデルを開発した。
論文 参考訳(メタデータ) (2024-08-25T13:14:59Z) - Quality Scalable Quantization Methodology for Deep Learning on Edge [0.20718016474717196]
ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。
提案する研究は、ユビキタスコンピューティングデバイス上でエッジコンピューティングで機械学習技術を使用する場合、CNNのエネルギー消費とサイズを削減することである。
LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
論文 参考訳(メタデータ) (2024-07-15T22:00:29Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文 参考訳(メタデータ) (2022-08-05T05:07:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。