論文の概要: Unsupervised Audiovisual Synthesis via Exemplar Autoencoders
- arxiv url: http://arxiv.org/abs/2001.04463v3
- Date: Sat, 3 Jul 2021 05:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:07:21.969212
- Title: Unsupervised Audiovisual Synthesis via Exemplar Autoencoders
- Title(参考訳): exemplarオートエンコーダによる教師なし視聴覚合成
- Authors: Kangle Deng and Aayush Bansal and Deva Ramanan
- Abstract要約: 我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
- 参考スコア(独自算出の注目度): 59.13989658692953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an unsupervised approach that converts the input speech of any
individual into audiovisual streams of potentially-infinitely many output
speakers. Our approach builds on simple autoencoders that project out-of-sample
data onto the distribution of the training set. We use Exemplar Autoencoders to
learn the voice, stylistic prosody, and visual appearance of a specific target
exemplar speech. In contrast to existing methods, the proposed approach can be
easily extended to an arbitrarily large number of speakers and styles using
only 3 minutes of target audio-video data, without requiring {\em any} training
data for the input speaker. To do so, we learn audiovisual bottleneck
representations that capture the structured linguistic content of speech. We
outperform prior approaches on both audio and video synthesis, and provide
extensive qualitative analysis on our project page --
https://www.cs.cmu.edu/~exemplar-ae/.
- Abstract(参考訳): 我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々のアプローチは、トレーニングセットの分布にサンプル外のデータを投影する単純なオートエンコーダに基づいています。
我々は,特定の音声の音声,スタイリスティックな韻律,視覚的外観の学習にexemplar autoencoderを用いた。
既存の手法とは対照的に,提案手法は,入力話者のトレーニングデータを必要とせずに,わずか3分間のターゲットオーディオビデオデータを用いて,任意の数の話者やスタイルに容易に拡張することができる。
そのために,音声の構造化言語コンテンツをキャプチャする視聴覚的ボトルネック表現を学習する。
我々は,音声合成とビデオ合成の両面で先行した手法より優れており,プロジェクトページ https://www.cs.cmu.edu/~exemplar-ae/
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Audiovisual Masked Autoencoders [93.22646144125457]
我々は,音声視覚下層分類タスクにおいて,大幅な改善が達成できることを示す。
また,Epic Kitchens における最先端オーディオ映像の表現の伝達性について述べる。
論文 参考訳(メタデータ) (2022-12-09T17:34:53Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。