論文の概要: Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging
- arxiv url: http://arxiv.org/abs/2006.05888v1
- Date: Wed, 10 Jun 2020 15:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:01:12.177243
- Title: Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging
- Title(参考訳): 顔への音声融合:人間の声の特徴と顔画像のギャップを埋める
- Authors: Yeqi Bai, Tao Ma, Lipo Wang, Zhenjie Zhang
- Abstract要約: 音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
- 参考スコア(独自算出の注目度): 19.285149134711382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning technologies are now capable of generating realistic
images confusing humans, the research efforts are turning to the synthesis of
images for more concrete and application-specific purposes. Facial image
generation based on vocal characteristics from speech is one of such important
yet challenging tasks. It is the key enabler to influential use cases of image
generation, especially for business in public security and entertainment.
Existing solutions to the problem of speech2face renders limited image quality
and fails to preserve facial similarity due to the lack of quality dataset for
training and appropriate integration of vocal features. In this paper, we
investigate these key technical challenges and propose Speech Fusion to Face,
or SF2F in short, attempting to address the issue of facial image quality and
the poor connection between vocal feature domain and modern image generation
models. By adopting new strategies on data model and training, we demonstrate
dramatic performance boost over state-of-the-art solution, by doubling the
recall of individual identity, and lifting the quality score from 15 to 19
based on the mutual information score with VGGFace classifier.
- Abstract(参考訳): 深層学習技術は、人間を混乱させる現実的なイメージを生成することができる一方で、研究はより具体的でアプリケーション固有の目的のために画像の合成に目を向けている。
音声の発声特性に基づく顔画像生成は重要な課題の一つである。
これは、特に公共の安全とエンターテイメントのビジネスにおいて、画像生成の影響力のあるユースケースの鍵となる。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、トレーニングのための品質データセットの欠如と声の特徴の適切な統合のために、顔の類似性を保たない。
本稿では、これらの重要な技術的課題を考察し、顔への音声融合(sf2f)を提案し、顔画像の品質問題と音声特徴領域と現代の画像生成モデルとの接続の貧弱さについて考察する。
データモデルとトレーニングに関する新たな戦略を採用することで、個々のアイデンティティのリコールを倍にし、VGGFace分類器による相互情報スコアに基づいて品質スコアを15から19に引き上げることで、最先端ソリューションに対する劇的なパフォーマンス向上を示す。
関連論文リスト
- Text-Guided Face Recognition using Multi-Granularity Cross-Modal
Contrastive Learning [0.0]
テキスト誘導顔認識(TGFR)を導入し、自然言語記述の形で顔属性を統合することの影響を解析する。
TGFRは、特に低画質の画像において、既存の顔認識モデルよりも顕著に改善されている。
論文 参考訳(メタデータ) (2023-12-14T22:04:22Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - Effective Adapter for Face Recognition in the Wild [77.09252386558362]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - Audio-driven Talking Face Generation by Overcoming Unintended
Information Flow [61.69573572091934]
近年の音声駆動型音声合成における同期手法の問題点をいくつか挙げる。
これらの問題を回避するための様々な手法を提案する。
LRS2は7つ中5つ,LRWは7つ中6つで,最先端の視覚的品質と同期性能を示す。
論文 参考訳(メタデータ) (2023-07-18T15:50:04Z) - AdaFace: Quality Adaptive Margin for Face Recognition [56.99208144386127]
本稿では、損失関数、すなわち画像品質における適応性の別の側面を紹介する。
そこで本稿では,画像品質に基づいて異なる難易度を示す新たな損失関数を提案する。
提案手法は,4つのデータセット上でのSoTA(State-of-the-art)による顔認識性能を向上させる。
論文 参考訳(メタデータ) (2022-04-03T01:23:41Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - Network Architecture Search for Face Enhancement [82.25775020564654]
我々は、NASFE(Network Architecture Search for Face Enhancement)と呼ばれるマルチタスクの顔復元ネットワークを提案する。
NASFEは、単一の劣化(すなわち)を含む低品質の顔画像を高めることができる。
ノイズまたはぼやけ)または複数の劣化(ノイズ+ブラル+ローライト)
論文 参考訳(メタデータ) (2021-05-13T19:46:05Z) - Joint Deep Learning of Facial Expression Synthesis and Recognition [97.19528464266824]
顔表情の合成と認識を効果的に行うための新しい統合深層学習法を提案する。
提案手法は, 2段階の学習手順を伴い, まず, 表情の異なる顔画像を生成するために, 表情合成生成対向ネットワーク (FESGAN) を事前訓練する。
実画像と合成画像間のデータバイアスの問題を軽減するために,新しい実データ誘導バックプロパゲーション(RDBP)アルゴリズムを用いたクラス内損失を提案する。
論文 参考訳(メタデータ) (2020-02-06T10:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。