論文の概要: A Unified Compression Framework for Efficient Speech-Driven Talking-Face
Generation
- arxiv url: http://arxiv.org/abs/2304.00471v2
- Date: Fri, 28 Apr 2023 15:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 16:53:48.886641
- Title: A Unified Compression Framework for Efficient Speech-Driven Talking-Face
Generation
- Title(参考訳): 効率的な音声対話生成のための統一圧縮フレームワーク
- Authors: Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi,
Hyoung-Kyu Song, Hyungshin Kim, Sungsu Lim
- Abstract要約: 本研究は,音声駆動音声合成のための軽量モデルの開発を目的とする。
残余ブロックを除去し、Wav2Lipからチャネル幅を小さくすることで、コンパクトなジェネレータを構築する。
また, 逆学習を伴わずに, 小容量発電機を安定かつ効果的に訓練するための知識蒸留方式を提案する。
- 参考スコア(独自算出の注目度): 5.013173132128393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual humans have gained considerable attention in numerous industries,
e.g., entertainment and e-commerce. As a core technology, synthesizing
photorealistic face frames from target speech and facial identity has been
actively studied with generative adversarial networks. Despite remarkable
results of modern talking-face generation models, they often entail high
computational burdens, which limit their efficient deployment. This study aims
to develop a lightweight model for speech-driven talking-face synthesis. We
build a compact generator by removing the residual blocks and reducing the
channel width from Wav2Lip, a popular talking-face generator. We also present a
knowledge distillation scheme to stably yet effectively train the
small-capacity generator without adversarial learning. We reduce the number of
parameters and MACs by 28$\times$ while retaining the performance of the
original model. Moreover, to alleviate a severe performance drop when
converting the whole generator to INT8 precision, we adopt a selective
quantization method that uses FP16 for the quantization-sensitive layers and
INT8 for the other layers. Using this mixed precision, we achieve up to a
19$\times$ speedup on edge GPUs without noticeably compromising the generation
quality.
- Abstract(参考訳): 仮想人間は多くの産業、例えばエンターテイメントやeコマースで注目を集めている。
中心となる技術として、ターゲット音声と顔の同一性からフォトリアリスティックな顔フレームを合成する手法が、生成的敵ネットワークで積極的に研究されている。
現代の対面生成モデルの顕著な結果にもかかわらず、それらはしばしば高い計算負担を伴い、効率的な展開を制限する。
本研究の目的は,音声対話型音声合成のための軽量モデルの開発である。
我々は,残余ブロックを除去し,一般的な音声生成装置であるWav2Lipからチャネル幅を小さくすることで,コンパクトなジェネレータを構築する。
また, 小容量発電機の安定的かつ効果的に, 逆学習を伴わない知識蒸留方式を提案する。
我々は、元のモデルの性能を維持しながら、パラメータとmacの数を28$\times$に削減する。
さらに,全ジェネレータをINT8精度に変換する際の性能低下を軽減するために,FP16を量子化に敏感な層に,INT8を他の層に,選択的な量子化手法を採用する。
この混合精度を用いて、生成品質を著しく損なうことなく、エッジGPU上で最大19$\times$スピードアップを達成する。
関連論文リスト
- Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。
CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。
CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文 参考訳(メタデータ) (2024-11-26T15:13:15Z) - Quantized neural network for complex hologram generation [0.0]
コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。
ニューラルネットワークをCGHに統合する最近の取り組みは、計算速度の高速化に成功している。
ニューラルネットワーク量子化を導入して,複雑なホログラム生成のための軽量モデルを開発した。
論文 参考訳(メタデータ) (2024-08-25T13:14:59Z) - Quality Scalable Quantization Methodology for Deep Learning on Edge [0.20718016474717196]
ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。
提案する研究は、ユビキタスコンピューティングデバイス上でエッジコンピューティングで機械学習技術を使用する場合、CNNのエネルギー消費とサイズを削減することである。
LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
論文 参考訳(メタデータ) (2024-07-15T22:00:29Z) - FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文 参考訳(メタデータ) (2023-04-20T13:40:49Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。