論文の概要: Synthetic Speaking Children -- Why We Need Them and How to Make Them
- arxiv url: http://arxiv.org/abs/2311.06307v1
- Date: Wed, 8 Nov 2023 22:58:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-19 14:31:32.039131
- Title: Synthetic Speaking Children -- Why We Need Them and How to Make Them
- Title(参考訳): 合成された子ども―なぜ必要なのか、どうやって作るのか
- Authors: Muhammad Ali Farooq and Dan Bigioi and Rishabh Jain and Wang Yao and
Mariam Yiwere and Peter Corcoran
- Abstract要約: StyleGAN2を微調整して、子供の顔の性別バランスのとれたデータセットを作成する方法を示す。
子声合成のための生成テキストと音声モデルと3Dランドマークに基づく音声ヘッドパイプラインを組み合わせることで、非常にリアルで完全に合成された子ビデオクリップを生成することができる。
- 参考スコア(独自算出の注目度): 3.1367597377725502
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contemporary Human Computer Interaction (HCI) research relies primarily on
neural network models for machine vision and speech understanding of a system
user. Such models require extensively annotated training datasets for optimal
performance and when building interfaces for users from a vulnerable population
such as young children, GDPR introduces significant complexities in data
collection, management, and processing. Motivated by the training needs of an
Edge AI smart toy platform this research explores the latest advances in
generative neural technologies and provides a working proof of concept of a
controllable data generation pipeline for speech driven facial training data at
scale. In this context, we demonstrate how StyleGAN2 can be finetuned to create
a gender balanced dataset of children's faces. This dataset includes a variety
of controllable factors such as facial expressions, age variations, facial
poses, and even speech-driven animations with realistic lip synchronization. By
combining generative text to speech models for child voice synthesis and a 3D
landmark based talking heads pipeline, we can generate highly realistic,
entirely synthetic, talking child video clips. These video clips can provide
valuable, and controllable, synthetic training data for neural network models,
bridging the gap when real data is scarce or restricted due to privacy
regulations.
- Abstract(参考訳): 現代のヒューマン・コンピュータ・インタラクション(HCI)の研究は、主にシステムユーザーのマシンビジョンと音声理解のためのニューラルネットワークモデルに依存している。
このようなモデルでは、最適なパフォーマンスのために広範囲に注釈付けされたトレーニングデータセットが必要であり、幼児のような脆弱な集団からユーザーのためのインターフェースを構築する際には、GDPRはデータ収集、管理、処理において重大な複雑さを導入する。
エッジAIスマートトイプラットフォームのトレーニングニーズに触発されたこの研究は、生成的ニューラルネットワークの最新技術を探究し、音声駆動型顔訓練データのための制御可能なデータ生成パイプラインの概念を大規模に実証する。
この文脈では、stylegan2を微調整して子供の顔のジェンダーバランスデータセットを作成する方法が示される。
このデータセットには、表情、年齢変化、顔のポーズ、さらにはリアルな唇同期を伴う音声駆動アニメーションなど、さまざまなコントロール可能な要素が含まれている。
音声合成のための生成テキストと音声モデルと3dランドマークベースのトークヘッドパイプラインを組み合わせることで、高度にリアルで完全に合成された子供向けビデオクリップを生成することができる。
これらのビデオクリップは、ニューラルネットワークモデルに価値があり、制御可能で、総合的なトレーニングデータを提供し、実際のデータがプライバシー規制によって不足したり制限されたりするときにギャップを埋めることができる。
関連論文リスト
- Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - ChildDiffusion: Unlocking the Potential of Generative AI and Controllable Augmentations for Child Facial Data using Stable Diffusion and Large Language Models [1.1470070927586018]
この枠組みは、民族データ、微妙な表現、顔ポーズのバリエーション、目まき効果、異なる髪の色とスタイル、老化、複数と異なる子供の性別を単一のフレームでレンダリングすることによって検証される。
提案手法は、時間的不整合や出力の限られた制御など、生成AIツールで発生する一般的な問題を回避している。
論文 参考訳(メタデータ) (2024-06-17T14:37:14Z) - Video as the New Language for Real-World Decision Making [100.68643056416394]
ビデオデータは、言語で表現しにくい物理世界に関する重要な情報をキャプチャする。
ビデオは、インターネットの知識を吸収し、多様なタスクを表現できる統一インターフェースとして機能する。
ロボット工学、自動運転、科学といった分野における大きなインパクトの機会を特定します。
論文 参考訳(メタデータ) (2024-02-27T02:05:29Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Procedural Humans for Computer Vision [1.9550079119934403]
顔と身体のパラメトリックなモデルを構築し,このモデルに基づいて人間の現実的な画像を生成する。
本研究は,Wood et al. のパイプライン上に構築し,人体全体の合成画像を生成することにより,全体を含むように拡張可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T15:44:48Z) - Knowledge Transfer For On-Device Speech Emotion Recognition with Neural
Structured Learning [19.220263739291685]
音声感情認識(SER)は、ヒューマン・コンピュータ・インタラクション(HCI)において人気のある研究トピックである。
合成グラフ構築によるニューラル構造化学習(NSL)フレームワークを提案する。
実験の結果,音声サンプルとグラフを用いた軽量SERモデルの訓練は,小さなSERモデルを生成するだけでなく,モデル性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-10-26T18:38:42Z) - Fake It Till You Make It: Face analysis in the wild using synthetic data
alone [9.081019005437309]
合成データだけで顔関連コンピュータビジョンを野生で実行可能であることを示す。
本稿では、手続き的に生成された3次元顔モデルと手作り資産の包括的ライブラリを組み合わせることで、前例のないリアリズムによるトレーニング画像のレンダリングを行う方法について述べる。
論文 参考訳(メタデータ) (2021-09-30T13:07:04Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - A Visuospatial Dataset for Naturalistic Verb Learning [18.654373173232205]
基礎言語モデルのトレーニングと評価のための新しいデータセットを導入する。
我々のデータはバーチャルリアリティー環境で収集され、言語データの品質をエミュレートするように設計されている。
収集したデータを用いて、動詞学習のための複数の分布意味論モデルを比較する。
論文 参考訳(メタデータ) (2020-10-28T20:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。