Fugu-MT 論文翻訳(概要): A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation

論文の概要: A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation

arxiv url: http://arxiv.org/abs/2304.00471v1
Date: Sun, 2 Apr 2023 06:56:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-04 17:59:55.138195
Title: A Unified Compression Framework for Efficient Speech-Driven Talking-Face Generation
Title（参考訳）: 効率的な音声対話生成のための統一圧縮フレームワーク
Authors: Bo-Kyeong Kim, Jaemin Kang, Daeun Seo, Hancheol Park, Shinkook Choi, Hyungshin Kim, Sungsu Lim
Abstract要約: 本研究は,音声駆動音声合成のための軽量モデルの開発を目的とする。残余ブロックを除去し、Wav2Lipからチャネル幅を小さくすることで、コンパクトなジェネレータを構築する。また, 逆学習を伴わずに, 小容量発電機を安定かつ効果的に訓練するための知識蒸留方式を提案する。
参考スコア（独自算出の注目度）: 4.848938971173454
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Virtual humans have gained considerable attention in numerous industries, e.g., entertainment and e-commerce. As a core technology, synthesizing photorealistic face frames from target speech and facial identity has been actively studied with generative adversarial networks. Despite remarkable results of modern talking-face generation models, they often entail high computational burdens, which limit their efficient deployment. This study aims to develop a lightweight model for speech-driven talking-face synthesis. We build a compact generator by removing the residual blocks and reducing the channel width from Wav2Lip, a popular talking-face generator. We also present a knowledge distillation scheme to stably yet effectively train the small-capacity generator without adversarial learning. We reduce the number of parameters and MACs by 28$\times$ while retaining the performance of the original model. Moreover, to alleviate a severe performance drop when converting the whole generator to INT8 precision, we adopt a selective quantization method that uses FP16 for the quantization-sensitive layers and INT8 for the other layers. Using this mixed precision, we achieve up to a 19$\times$ speedup on edge GPUs without noticeably compromising the generation quality.
Abstract（参考訳）: 仮想人間は多くの産業、例えばエンターテイメントやeコマースで注目を集めている。中心となる技術として、ターゲット音声と顔の同一性からフォトリアリスティックな顔フレームを合成する手法が、生成的敵ネットワークで積極的に研究されている。現代の対面生成モデルの顕著な結果にもかかわらず、それらはしばしば高い計算負担を伴い、効率的な展開を制限する。本研究の目的は,音声対話型音声合成のための軽量モデルの開発である。我々は,残余ブロックを除去し,一般的な音声生成装置であるWav2Lipからチャネル幅を小さくすることで,コンパクトなジェネレータを構築する。また, 小容量発電機の安定的かつ効果的に, 逆学習を伴わない知識蒸留方式を提案する。我々は、元のモデルの性能を維持しながら、パラメータとmacの数を28$\times$に削減する。さらに,全ジェネレータをINT8精度に変換する際の性能低下を軽減するために,FP16を量子化に敏感な層に,INT8を他の層に,選択的な量子化手法を採用する。この混合精度を用いて、生成品質を著しく損なうことなく、エッジGPU上で最大19$\times$スピードアップを達成する。

関連論文リスト

Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Muon-Accelerated Attention Distillation for Real-Time Edge Synthesis via Optimized Latent Diffusion [1.9913317582614614]
Muon-ADは、Muonをリアルタイムエッジ合成のための注意蒸留と統合するフレームワークである。本フレームワークは,Jetson Orin上でのピークメモリを7GBに削減し,24FPSのリアルタイム生成を可能にする。これらの進歩は、資源制約された環境で高品質な視覚合成を民主化する道を開く。
論文参考訳（メタデータ） (2025-04-11T11:27:29Z)
UniTok: A Unified Tokenizer for Visual Generation and Understanding [69.09699034036124]
視覚生成および理解モデルは通常、画像を処理するために異なるトークン化器に依存する。我々は、新しいマルチコードブック量子化機構を備えた統一トークン化システムUniTokを紹介する。最終的なパフォーマンスに関しては、UniTokはImageNetで0.38 rFIDと78.6%のゼロショット精度で新記録を樹立した。
論文参考訳（メタデータ） (2025-02-27T17:47:01Z)
Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文参考訳（メタデータ） (2025-02-20T18:45:44Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。 RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文参考訳（メタデータ） (2025-01-20T16:46:26Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Quantized neural network for complex hologram generation [0.0]
コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。ニューラルネットワークをCGHに統合する最近の取り組みは、計算速度の高速化に成功している。ニューラルネットワーク量子化を導入して,複雑なホログラム生成のための軽量モデルを開発した。
論文参考訳（メタデータ） (2024-08-25T13:14:59Z)
Quality Scalable Quantization Methodology for Deep Learning on Edge [0.20718016474717196]
ディープラーニングアーキテクチャは重い計算を使い、計算エネルギーの大部分は畳み込みニューラルネットワークの畳み込み演算によって取り込まれる。提案する研究は、ユビキタスコンピューティングデバイス上でエッジコンピューティングで機械学習技術を使用する場合、CNNのエネルギー消費とサイズを削減することである。 LeNetとConvNetsで実施された実験では、ゼロの6%まで増加し、メモリ節約量は82.4919%まで増加し、最先端の精度を維持した。
論文参考訳（メタデータ） (2024-07-15T22:00:29Z)
GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。 NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文参考訳（メタデータ） (2023-05-01T12:24:09Z)
FIANCEE: Faster Inference of Adversarial Networks via Conditional Early Exits [0.7649605697963953]
本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
論文参考訳（メタデータ） (2023-04-20T13:40:49Z)
Traditional Classification Neural Networks are Good Generators: They are Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文参考訳（メタデータ） (2022-11-27T11:25:35Z)
Efficient Image Generation with Variadic Attention Heads [66.9694645123474]
単変圧器のアテンションヘッドが複数の受容場に到達できるようにするための,単純かつ強力な手法を提案する。筆者らは、近隣意識(NA)を利用して画像を生成するためのStyleGANベースのアーキテクチャに組み込む手法を実証した。 StyleNATと呼ばれるこの作業により、FFHQで2.05のFIDを達成することができ、StyleGAN-XLよりも6%改善されています。
論文参考訳（メタデータ） (2022-11-10T18:55:48Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Model Blending for Text Classification [0.15229257192293197]
テキスト分類などの自然言語処理におけるアートLSTMモデルの複雑性をCNNベースモデルに抽出することにより,テスト中の推論時間(あるいはレイテンシ)を短縮する。
論文参考訳（メタデータ） (2022-08-05T05:07:45Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)
Learning Efficient GANs for Image Translation via Differentiable Masks and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。 DMADと呼ばれる新しいGAN圧縮手法を提案する。実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文参考訳（メタデータ） (2020-11-17T02:39:19Z)
Resource-Efficient Speech Mask Estimation for Multi-Channel Speech Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。 2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文参考訳（メタデータ） (2020-07-22T14:58:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。