論文の概要: RespVAD: Voice Activity Detection via Video-Extracted Respiration
Patterns
- arxiv url: http://arxiv.org/abs/2008.09466v1
- Date: Fri, 21 Aug 2020 13:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 21:18:41.730405
- Title: RespVAD: Voice Activity Detection via Video-Extracted Respiration
Patterns
- Title(参考訳): RespVAD:ビデオ抽出呼吸パターンによる音声活動検出
- Authors: Arnab Kumar Mondal, Prathosh A.P
- Abstract要約: 音声活動検出(Voice Activity Detection, VAD)とは、音声やビデオなどのデジタル信号における人間の音声の領域を識別するタスクである。
呼吸は 音声生成の 主要なエネルギー源となります
話者のビデオから抽出した呼吸パターンを用いた音声非依存型VAD手法を開発した。
- 参考スコア(独自算出の注目度): 5.716047866174048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice Activity Detection (VAD) refers to the task of identification of
regions of human speech in digital signals such as audio and video. While VAD
is a necessary first step in many speech processing systems, it poses
challenges when there are high levels of ambient noise during the audio
recording. To improve the performance of VAD in such conditions, several
methods utilizing the visual information extracted from the region surrounding
the mouth/lip region of the speakers' video recording have been proposed. Even
though these provide advantages over audio-only methods, they depend on
faithful extraction of lip/mouth regions. Motivated by these, a new paradigm
for VAD based on the fact that respiration forms the primary source of energy
for speech production is proposed. Specifically, an audio-independent VAD
technique using the respiration pattern extracted from the speakers' video is
developed. The Respiration Pattern is first extracted from the video focusing
on the abdominal-thoracic region of a speaker using an optical flow based
method. Subsequently, voice activity is detected from the respiration pattern
signal using neural sequence-to-sequence prediction models. The efficacy of the
proposed method is demonstrated through experiments on a challenging dataset
recorded in real acoustic environments and compared with four previous methods
based on audio and visual cues.
- Abstract(参考訳): 音声活動検出(Voice Activity Detection, VAD)とは、音声やビデオなどのデジタル信号における人間の音声の領域を識別するタスクである。
vadは、多くの音声処理システムにおいて必要な第1ステップであるが、音声記録中に高レベルの環境ノイズが発生すると、問題となる。
このような状況下でのVADの性能を向上させるため,話者のビデオ記録の口/唇領域周辺の領域から抽出した視覚情報を活用する手法が提案されている。
これらは音声のみの方法よりも優れているが、口唇領域の忠実な抽出に依存している。
これらに動機づけられたvadの新しいパラダイムは、呼吸が音声生成の主要なエネルギー源であるという事実に基づくものである。
具体的には,話者のビデオから抽出した呼吸パターンを用いた音声非依存のVAD手法を開発した。
呼吸パターンは、まず、光学的フローベース手法を用いて、話者の腹部胸部領域に焦点を当てたビデオから抽出される。
その後、ニューラルシーケンス対シーケンス予測モデルを用いて呼吸パターン信号から音声活動を検出する。
提案手法の有効性は,実音響環境に記録された挑戦的データセットを用いて実験を行い,従来の4つの手法と比較した。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Audio-visual speech enhancement with a deep Kalman filter generative
model [0.0]
本稿では,潜伏変数に対するマルコフ連鎖モデルを想定したオーディオビジュアルディープカルマンフィルタ(AV-DKF)生成モデルを提案する。
テスト時に音声信号を推定する効率的な推論手法を開発した。
論文 参考訳(メタデータ) (2022-11-02T09:50:08Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Learning Audio-Visual Dereverberation [87.52880019747435]
環境中の表面や物体を反射する音声からの残響は、人間の知覚の質を低下させるだけでなく、自動音声認識の精度にも深刻な影響を及ぼす。
我々の考えは、音声・視覚的観察から音声を除去することである。
そこで我々は,観測音と映像シーンの両方に基づいて残響を除去することを学ぶエンドツーエンドアプローチである,視覚インフォームド・デバーベレーション・オブ・オーディオ(VIDA)を紹介した。
論文 参考訳(メタデータ) (2021-06-14T20:01:24Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。