論文の概要: FlexLip: A Controllable Text-to-Lip System
- arxiv url: http://arxiv.org/abs/2206.03206v1
- Date: Tue, 7 Jun 2022 11:51:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 22:04:48.195434
- Title: FlexLip: A Controllable Text-to-Lip System
- Title(参考訳): FlexLip: 制御可能なテキスト-ライプシステム
- Authors: Dan Oneata, Beata Lorincz, Adriana Stan and Horia Cucu
- Abstract要約: 我々はテキストをリップランドマークに変換することによって、テキストからビデオへの生成問題のサブセットに取り組む。
我々のシステムはFlexLipと呼ばれ、テキスト・トゥ・音声と音声・音声・音声の2つのモジュールに分けられる。
音声生成成分に20分のデータを使用し, 音声合成成分に5分のデータを使用することにより, 生成した唇のランドマークの客観的な測定値は, より大きなトレーニングサンプルを用いて得られるものと同等であることを示す。
- 参考スコア(独自算出の注目度): 6.15560473113783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of converting text input into video content is becoming an important
topic for synthetic media generation. Several methods have been proposed with
some of them reaching close-to-natural performances in constrained tasks. In
this paper, we tackle a subissue of the text-to-video generation problem, by
converting the text into lip landmarks. However, we do this using a modular,
controllable system architecture and evaluate each of its individual
components. Our system, entitled FlexLip, is split into two separate modules:
text-to-speech and speech-to-lip, both having underlying controllable deep
neural network architectures. This modularity enables the easy replacement of
each of its components, while also ensuring the fast adaptation to new speaker
identities by disentangling or projecting the input features. We show that by
using as little as 20 min of data for the audio generation component, and as
little as 5 min for the speech-to-lip component, the objective measures of the
generated lip landmarks are comparable with those obtained when using a larger
set of training samples. We also introduce a series of objective evaluation
measures over the complete flow of our system by taking into consideration
several aspects of the data and system configuration. These aspects pertain to
the quality and amount of training data, the use of pretrained models, and the
data contained therein, as well as the identity of the target speaker; with
regard to the latter, we show that we can perform zero-shot lip adaptation to
an unseen identity by simply updating the shape of the lips in our model.
- Abstract(参考訳): テキスト入力をビデオコンテンツに変換するタスクは、合成メディア生成の重要なトピックになりつつある。
いくつかの方法が提案されており、制約のあるタスクで自然に近いパフォーマンスを達成する方法もある。
本稿では,テキストをリップランドマークに変換することで,テキスト対ビデオ生成問題のサブイシューに取り組む。
しかし、モジュール式で制御可能なシステムアーキテクチャを使ってこれを行い、それぞれのコンポーネントを評価します。
当社のシステムはflexlipと呼ばれ、text-to-speechとspeech-to-lipの2つのモジュールに分かれている。
このモジュール性により,各コンポーネントの置き換えが容易になると同時に,入力機能を分離あるいは投影することで,新たな話者識別への迅速な適応が可能になる。
本研究では,音声生成成分に対して20分以内のデータと,音声からリップまでの成分に対して5分以内を用いることで,生成したリップランドマークの客観的測定は,より大きなトレーニングサンプルを用いた場合と同等であることを示す。
また,データとシステム構成のいくつかの側面を考慮し,システム全体のフローを客観的に評価する手法も導入する。
これらの側面は、トレーニングデータの品質と量、事前訓練されたモデルの使用、それに含まれるデータ、および対象話者の同一性に関するものであり、後者については、モデル内の唇の形状を単に更新することで、目に見えない人物に対するゼロショットの唇適応を行うことができることを示す。
関連論文リスト
- FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Leveraging Generative Language Models for Weakly Supervised Sentence
Component Analysis in Video-Language Joint Learning [10.486585276898472]
テキストデータの徹底的な理解は、マルチモーダルビデオ解析タスクの基本的な要素である。
目的タスクに応じて文成分の意義を理解することで,モデルの性能を高めることができると仮定する。
本稿では,コンポーネントの相対的重要性を計算し,映像言語タスクの改善に利用するために,弱教師付き重要度推定モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-10T02:03:51Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - An analysis on the effects of speaker embedding choice in non
auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。
使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文 参考訳(メタデータ) (2023-07-19T10:57:54Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - VX2TEXT: End-to-End Learning of Video-Based Text Generation From
Multimodal Inputs [103.99315770490163]
本稿では,ビデオ+テキスト,音声,音声によるマルチモーダル入力からテキストを生成するフレームワークを提案する。
実験により、一つのアーキテクチャに基づくアプローチは、3つのビデオベースのテキスト生成タスクにおいて最先端のタスクより優れていることが示された。
論文 参考訳(メタデータ) (2021-01-28T15:22:36Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。