論文の概要: Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging
- arxiv url: http://arxiv.org/abs/2006.05888v1
- Date: Wed, 10 Jun 2020 15:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:01:12.177243
- Title: Speech Fusion to Face: Bridging the Gap Between Human's Vocal
Characteristics and Facial Imaging
- Title(参考訳): 顔への音声融合:人間の声の特徴と顔画像のギャップを埋める
- Authors: Yeqi Bai, Tao Ma, Lipo Wang, Zhenjie Zhang
- Abstract要約: 音声の発声特性に基づく顔画像生成は重要な課題である。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、顔の類似性を維持するのに失敗する。
本稿では,顔への音声融合(SF2F)を提案し,音声特徴領域と現代画像生成モデルとの接続性の問題に対処する。
- 参考スコア(独自算出の注目度): 19.285149134711382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning technologies are now capable of generating realistic
images confusing humans, the research efforts are turning to the synthesis of
images for more concrete and application-specific purposes. Facial image
generation based on vocal characteristics from speech is one of such important
yet challenging tasks. It is the key enabler to influential use cases of image
generation, especially for business in public security and entertainment.
Existing solutions to the problem of speech2face renders limited image quality
and fails to preserve facial similarity due to the lack of quality dataset for
training and appropriate integration of vocal features. In this paper, we
investigate these key technical challenges and propose Speech Fusion to Face,
or SF2F in short, attempting to address the issue of facial image quality and
the poor connection between vocal feature domain and modern image generation
models. By adopting new strategies on data model and training, we demonstrate
dramatic performance boost over state-of-the-art solution, by doubling the
recall of individual identity, and lifting the quality score from 15 to 19
based on the mutual information score with VGGFace classifier.
- Abstract(参考訳): 深層学習技術は、人間を混乱させる現実的なイメージを生成することができる一方で、研究はより具体的でアプリケーション固有の目的のために画像の合成に目を向けている。
音声の発声特性に基づく顔画像生成は重要な課題の一つである。
これは、特に公共の安全とエンターテイメントのビジネスにおいて、画像生成の影響力のあるユースケースの鍵となる。
speech2faceの問題に対する既存の解決策は、限られた画像品質をレンダリングし、トレーニングのための品質データセットの欠如と声の特徴の適切な統合のために、顔の類似性を保たない。
本稿では、これらの重要な技術的課題を考察し、顔への音声融合(sf2f)を提案し、顔画像の品質問題と音声特徴領域と現代の画像生成モデルとの接続の貧弱さについて考察する。
データモデルとトレーニングに関する新たな戦略を採用することで、個々のアイデンティティのリコールを倍にし、VGGFace分類器による相互情報スコアに基づいて品質スコアを15から19に引き上げることで、最先端ソリューションに対する劇的なパフォーマンス向上を示す。
関連論文リスト
- RealTalk: Real-time and Realistic Audio-driven Face Generation with 3D Facial Prior-guided Identity Alignment Network [48.95833484103569]
RealTalkは、音声から表現へのトランスフォーマーであり、高忠実な表現から顔へのフレームワークである。
第1成分として, 口唇運動に関連する個人性および個人内変動の特徴について考察した。
第2のコンポーネントでは、軽量な顔認証アライメント(FIA)モジュールを設計する。
この新しい設計により、高度で非効率な特徴アライメントモジュールに依存することなく、リアルタイムに細部を生成できる。
論文 参考訳(メタデータ) (2024-06-26T12:09:59Z) - Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation [56.46932751058042]
我々は、テキストから画像への拡散モデルのための学習可能なプロンプトプレフィックスをトレーニングし、匿名化された顔のアイデンティティを生成するよう強制する。
実験では,非同一性固有の画像生成の品質を損なうことなく,特定の個人を匿名化するAPLの匿名化性能を実証した。
論文 参考訳(メタデータ) (2024-05-27T07:38:26Z) - Adversarial Identity Injection for Semantic Face Image Synthesis [6.763801424109435]
我々は、顔を生成するためにアイデンティティ、スタイル、セマンティック特徴をマージするクロスアテンション機構を利用するSISアーキテクチャを提案する。
実験結果から,提案手法は識別情報の保存に適するだけでなく,顔認識対向攻撃にも有効であることが判明した。
論文 参考訳(メタデータ) (2024-04-16T09:19:23Z) - FlashFace: Human Image Personalization with High-fidelity Identity Preservation [59.76645602354481]
FlashFaceを使うと、ユーザーは自分の写真を簡単にパーソナライズできる。
我々のアプローチは、高忠実度ID保存とより良い指示に従うことによって、既存の人間の写真カスタマイズ方法と区別できる。
論文 参考訳(メタデータ) (2024-03-25T17:59:57Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - Effective Adapter for Face Recognition in the Wild [72.75516495170199]
私たちは、画像が低品質で現実世界の歪みに悩まされる、野生の顔認識の課題に取り組みます。
従来のアプローチでは、劣化した画像や、顔の復元技術を使って強化された画像を直接訓練するが、効果がないことが証明された。
高品質な顔データセットで訓練された既存の顔認識モデルを強化するための効果的なアダプタを提案する。
論文 参考訳(メタデータ) (2023-12-04T08:55:46Z) - Realistic Speech-to-Face Generation with Speech-Conditioned Latent
Diffusion Model with Face Prior [13.198105709331617]
本稿では,SCLDMと呼ばれる音声合成遅延拡散モデルを利用した音声合成フレームワークを提案する。
これは、音声対面生成のための拡散モデルの例外的モデリング機能を利用する最初の試みである。
提案手法は,最先端の手法よりも話者のアイデンティティを保ちながら,よりリアルな顔画像を生成することができることを示す。
論文 参考訳(メタデータ) (2023-10-05T07:44:49Z) - FaceChain: A Playground for Human-centric Artificial Intelligence
Generated Content [36.48960592782015]
FaceChainは、パーソナライズされたポートレート生成フレームワークで、一連のカスタマイズされた画像生成モデルと、顔に関連する知覚理解モデルの豊富なセットを組み合わせる。
我々は、複数のSOTAフェイスモデルを生成手順に注入し、従来のソリューションと比較して、より効率的なラベルタグ付け、データ処理、モデル後処理を実現する。
FaceChainをベースとして、仮想トライオンや2Dトーキングヘッドなど、その価値をよりよく示すための、より広いグラウンドを構築するためのいくつかのアプリケーションも開発しています。
論文 参考訳(メタデータ) (2023-08-28T02:20:44Z) - SynFace: Face Recognition with Synthetic Data [83.15838126703719]
我々は、ID混在(IM)とドメイン混在(DM)を併用したSynFaceを考案し、パフォーマンスギャップを緩和する。
また、合成顔画像の系統的実験分析を行い、合成データを顔認識に効果的に活用する方法についての知見を提供する。
論文 参考訳(メタデータ) (2021-08-18T03:41:54Z) - Network Architecture Search for Face Enhancement [82.25775020564654]
我々は、NASFE(Network Architecture Search for Face Enhancement)と呼ばれるマルチタスクの顔復元ネットワークを提案する。
NASFEは、単一の劣化(すなわち)を含む低品質の顔画像を高めることができる。
ノイズまたはぼやけ)または複数の劣化(ノイズ+ブラル+ローライト)
論文 参考訳(メタデータ) (2021-05-13T19:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。