論文の概要: VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer
- arxiv url: http://arxiv.org/abs/2203.04099v1
- Date: Tue, 8 Mar 2022 14:08:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 14:17:40.318558
- Title: VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer
- Title(参考訳): vovit:低レイテンシグラフに基づく音声・視覚音声分離トランス
- Authors: Juan F. Montesinos, Venkatesh S. Kadandale, Gloria Haro
- Abstract要約: 本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
- 参考スコア(独自算出の注目度): 4.167459103689587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents an audio-visual approach for voice separation which
outperforms state-of-the-art methods at a low latency in two scenarios: speech
and singing voice. The model is based on a two-stage network. Motion cues are
obtained with a lightweight graph convolutional network that processes face
landmarks. Then, both audio and motion features are fed to an audio-visual
transformer which produces a fairly good estimation of the isolated target
source. In a second stage, the predominant voice is enhanced with an audio-only
network. We present different ablation studies and comparison to
state-of-the-art methods. Finally, we explore the transferability of models
trained for speech separation in the task of singing voice separation. The
demos, code, and weights will be made publicly available at
https://ipcv.github.io/VoViT/
- Abstract(参考訳): 本稿では,音声と歌声の2つのシナリオにおいて,低レイテンシで最先端手法よりも優れた音声分離手法を提案する。
モデルは2段階のネットワークに基づいている。
動きの手がかりは、顔のランドマークを処理する軽量なグラフ畳み込みネットワークで得られる。
そして、音声と動きの両特徴をオーディオ・視覚変換器に供給し、孤立したターゲット源をかなりよく推定する。
第2段階では、主声は音声のみのネットワークで拡張される。
アブレーション研究と最先端手法との比較を行った。
最後に,歌声分離作業における音声分離訓練モデルの伝達可能性について検討する。
デモ、コード、重み付けはhttps://ipcv.github.io/VoViT/で公開されます。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - A cappella: Audio-visual Singing Voice Separation [4.6453787256723365]
マルチモーダルの観点からシングルチャンネル歌唱音声分離問題について検討する。
今回紹介するAcappellaは、YouTubeからソースされたカペラソロの歌唱ビデオの46時間に及ぶデータセットだ。
本稿では,最先端の歌唱音声分離結果を実現する音声視覚畳み込みニューラルネットワークY-Netを提案する。
論文 参考訳(メタデータ) (2021-04-20T13:17:06Z) - Visually Guided Sound Source Separation and Localization using
Self-Supervised Motion Representations [16.447597767676655]
入力ビデオシーケンスのソース位置をピンポイントすることを目的としている。
近年の研究では、ソースタイプの事前知識を用いて、オーディオと視覚の分離結果が顕著に示されている。
本研究では,出現と運動の手がかりを専門とする2段階アーキテクチャであるexeation and motion network (amnet)を提案する。
論文 参考訳(メタデータ) (2021-04-17T10:09:15Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。