論文の概要: An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments
- arxiv url: http://arxiv.org/abs/2011.04359v1
- Date: Mon, 9 Nov 2020 11:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 00:50:50.529389
- Title: An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments
- Title(参考訳): マルチトーカー環境におけるDNNに基づく音声強調のための視覚的特徴の実証的研究
- Authors: Shrishti Saha Shetu, Soumitro Chakrabarty and Emanu\"el A. P. Habets
- Abstract要約: AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
- 参考スコア(独自算出の注目度): 5.28539620288341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio-visual speech enhancement (AVSE) methods use both audio and visual
features for the task of speech enhancement and the use of visual features has
been shown to be particularly effective in multi-speaker scenarios. In the
majority of deep neural network (DNN) based AVSE methods, the audio and visual
data are first processed separately using different sub-networks, and then the
learned features are fused to utilize the information from both modalities.
There have been various studies on suitable audio input features and network
architectures, however, to the best of our knowledge, there is no published
study that has investigated which visual features are best suited for this
specific task. In this work, we perform an empirical study of the most commonly
used visual features for DNN based AVSE, the pre-processing requirements for
each of these features, and investigate their influence on the performance. Our
study shows that despite the overall better performance of embedding-based
features, their computationally intensive pre-processing make their use
difficult in low resource systems. For such systems, optical flow or raw
pixels-based features might be better suited.
- Abstract(参考訳): 音声・視覚的音声強調法 (AVSE) は, 音声・視覚的特徴を用いた音声強調法と, 視覚的特徴の利用が, 多話者シナリオにおいて特に有効であることが示されている。
ディープニューラルネットワーク(DNN)ベースのAVSE手法の大多数では、オーディオと視覚データは、まず異なるサブネットワークを使用して別々に処理され、その後、学習された特徴は融合して、両方のモダリティの情報を利用する。
適切な音声入力機能とネットワークアーキテクチャについて様々な研究がなされてきたが、我々の知る限り、この特定のタスクに最適な視覚的特徴を調査する研究は発表されていない。
本研究では,dnnベースのavseにおいて最も一般的に使用される視覚特徴,これらの特徴に対する前処理要件について経験的研究を行い,その性能への影響について検討する。
本研究は,組込み型機能の全体的な性能向上にもかかわらず,計算集約的な前処理が低リソースシステムでの使用を困難にしていることを示す。
このようなシステムでは、光学フローや生画素ベースの機能がより適しているかもしれない。
関連論文リスト
- Investigating Design Choices in Joint-Embedding Predictive Architectures for General Audio Representation Learning [3.7161123856095837]
本稿では,自己教師型汎用音声表現学習の課題に対処する。
本稿では、入力メルスペクトルを2つの部分(コンテキストとターゲット)に分割し、それぞれに神経表現を演算し、コンテキスト表現からターゲット表現を予測するニューラルネットワークをトレーニングする、JEPA(Joint-Embedding Predictive Architectures)の利用について検討する。
論文 参考訳(メタデータ) (2024-05-14T15:00:09Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Lite Audio-Visual Speech Enhancement [25.91075607254046]
オーディオ・ヴィジュアルSE(AVSE)システムを実装する際には2つの問題が発生する可能性がある。
視覚入力を組み込むために追加の処理コストがかかる。
顔や唇の画像の使用はプライバシーの問題を引き起こす可能性がある。
これらの問題に対処するLite AVSE (LAVSE) システムを提案する。
論文 参考訳(メタデータ) (2020-05-24T15:09:42Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。