Fugu-MT 論文翻訳(概要): Speech Prediction in Silent Videos using Variational Autoencoders

論文の概要: Speech Prediction in Silent Videos using Variational Autoencoders

arxiv url: http://arxiv.org/abs/2011.07340v1
Date: Sat, 14 Nov 2020 17:09:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-25 13:47:58.655272
Title: Speech Prediction in Silent Videos using Variational Autoencoders
Title（参考訳）: 変分オートエンコーダを用いたサイレントビデオの音声予測
Authors: Ravindra Yadav, Ashish Sardana, Vinay P Namboodiri, Rajesh M Hegde
Abstract要約: 我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
参考スコア（独自算出の注目度）: 29.423462898526605
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Understanding the relationship between the auditory and visual signals is crucial for many different applications ranging from computer-generated imagery (CGI) and video editing automation to assisting people with hearing or visual impairments. However, this is challenging since the distribution of both audio and visual modality is inherently multimodal. Therefore, most of the existing methods ignore the multimodal aspect and assume that there only exists a deterministic one-to-one mapping between the two modalities. It can lead to low-quality predictions as the model collapses to optimizing the average behavior rather than learning the full data distributions. In this paper, we present a stochastic model for generating speech in a silent video. The proposed model combines recurrent neural networks and variational deep generative models to learn the auditory signal's conditional distribution given the visual signal. We demonstrate the performance of our model on the GRID dataset based on standard benchmarks.
Abstract（参考訳）: 聴覚信号と視覚信号の関係を理解することは、コンピュータ生成画像(CGI)やビデオ編集自動化から、聴覚障害や視覚障害のある人を支援する様々な用途において重要である。しかし、オーディオと視覚の両モードの分布は本質的にマルチモーダルであるため、これは難しい。したがって、既存の方法の多くはマルチモーダルな側面を無視し、2つのモダリティの間に決定論的な1対1のマッピングしか存在しないと仮定している。モデルは崩壊し、完全なデータ分布を学習するのではなく、平均的な振る舞いを最適化する。本稿では,サイレントビデオにおける音声生成のための確率モデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、視覚信号から聴覚信号の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。

関連論文リスト

PreFM: Online Audio-Visual Event Parsing via Predictive Future Modeling [78.61911985138795]
On-AVEP(On-AVEP: Online Audio-Visual Event Parsing)は、入ってくる映像ストリームを逐次解析することで、音声、視覚、視覚イベントを解析するための新しいパラダイムである。本稿では,(a)予測的マルチモーダル・フューチャー・モデリングが特徴とする予測的未来・モデリング・フレームワークを提案する。実験により、PreFMは、パラメータが大幅に少ない大きなマージンで最先端の手法を著しく上回ることが示された。
論文参考訳（メタデータ） (2025-05-29T06:46:19Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection [15.72443573134312]
本研究では,ビデオから抽出した特徴ベクトルを,固定分布を持つランダム変数の実現として扱う。我々は、デノナイジングスコアマッチングの修正を用いて、ビデオ異常検出装置を訓練する。 5つの人気ビデオ異常検出ベンチマーク実験により,最先端の性能が示された。
論文参考訳（メタデータ） (2024-03-21T15:46:19Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
Minimally-Supervised Speech Synthesis with Conditional Diffusion Model and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。実験の結果,提案手法はベースライン法よりも優れていた。
論文参考訳（メタデータ） (2023-07-28T11:20:23Z)
Towards Robust FastSpeech 2 by Modelling Residual Multimodality [4.4904382374090765]
FastSpeech 2に基づく最先端の非自己回帰型音声合成モデルは、高忠実度と自然な音声を効率的に合成することができる。表現型音声データセットにおける特徴的音声歪みを観察する。 TVC-GMMはスペクトログラムの滑らかさを低減し、特に表現的データセットの知覚音質を改善する。
論文参考訳（メタデータ） (2023-06-02T11:03:26Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文参考訳（メタデータ） (2021-05-29T09:26:02Z)
Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文参考訳（メタデータ） (2021-02-08T11:45:02Z)
Multi Modal Adaptive Normalization for Audio to Video Generation [18.812696623555855]
本稿では,音声信号と人物の単一画像とを入力として,任意の長さの人物映像を合成するマルチモーダル適応正規化(MAN)アーキテクチャを提案する。このアーキテクチャでは,マルチモーダル適応正規化,キーポイントヒートマップ予測器,光フロー予測器,およびクラスアクティベーションマップ[58]ベースのレイヤを用いて,表情成分の動きを学習する。
論文参考訳（メタデータ） (2020-12-14T07:39:45Z)
Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文参考訳（メタデータ） (2020-08-17T10:12:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。