論文の概要: Lite Audio-Visual Speech Enhancement
- arxiv url: http://arxiv.org/abs/2005.11769v3
- Date: Tue, 18 Aug 2020 13:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 14:01:13.542184
- Title: Lite Audio-Visual Speech Enhancement
- Title(参考訳): ライトオーディオ・ビジュアル音声強調
- Authors: Shang-Yi Chuang, Yu Tsao, Chen-Chou Lo and Hsin-Min Wang
- Abstract要約: オーディオ・ヴィジュアルSE(AVSE)システムを実装する際には2つの問題が発生する可能性がある。
視覚入力を組み込むために追加の処理コストがかかる。
顔や唇の画像の使用はプライバシーの問題を引き起こす可能性がある。
これらの問題に対処するLite AVSE (LAVSE) システムを提案する。
- 参考スコア(独自算出の注目度): 25.91075607254046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous studies have confirmed the effectiveness of incorporating visual
information into speech enhancement (SE) systems. Despite improved denoising
performance, two problems may be encountered when implementing an audio-visual
SE (AVSE) system: (1) additional processing costs are incurred to incorporate
visual input and (2) the use of face or lip images may cause privacy problems.
In this study, we propose a Lite AVSE (LAVSE) system to address these problems.
The system includes two visual data compression techniques and removes the
visual feature extraction network from the training model, yielding better
online computation efficiency. Our experimental results indicate that the
proposed LAVSE system can provide notably better performance than an audio-only
SE system with a similar number of model parameters. In addition, the
experimental results confirm the effectiveness of the two techniques for visual
data compression.
- Abstract(参考訳): 従来の研究では、視覚情報を音声強調(SE)システムに組み込むことの有効性が確認されている。
音声-視覚的SE(AVSE)システムを実装する際には,視覚的入力を組み込むために追加の処理コストがかかり,顔画像や唇画像の使用がプライバシー上の問題を引き起こす可能性がある。
本研究では,これらの問題に対処するLite AVSE(LAVSE)システムを提案する。
このシステムは2つのビジュアルデータ圧縮技術を含み、トレーニングモデルから視覚特徴抽出ネットワークを取り除き、オンライン計算効率が向上する。
実験結果から,提案するLAVSEシステムは,類似のモデルパラメータを持つ音声のみのSEシステムよりも優れた性能が得られることが示された。
さらに,視覚データ圧縮における2つの手法の有効性を実験的に検証した。
関連論文リスト
- Speaker-Adapted End-to-End Visual Speech Recognition for Continuous
Spanish [0.0]
本稿では,特定の人物を対象としたエンド・ツー・エンドシステムの評価が,音声認識の品質に与える影響について検討する。
現在の技術に匹敵する結果は、限られた量のデータしか入手できなかった場合でも到達した。
論文 参考訳(メタデータ) (2023-11-21T09:44:33Z) - Speed Co-Augmentation for Unsupervised Audio-Visual Pre-training [102.18680666349806]
本稿では,音声とビデオデータの再生速度をランダムに変更する高速化手法を提案する。
実験の結果,提案手法は,バニラ音声・視覚的コントラスト学習と比較して,学習表現を著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-25T08:22:30Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - Egocentric Audio-Visual Noise Suppression [11.113020254726292]
本稿では,エゴセントリックビデオの音声・視覚ノイズ抑圧について検討する。
ビデオカメラは、外界のオフスクリーンスピーカーのビューをエミュレートします。
まず,エゴセントリックな視覚情報が騒音抑制に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-07T15:53:12Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z) - An Empirical Study of Visual Features for DNN based Audio-Visual Speech
Enhancement in Multi-talker Environments [5.28539620288341]
AVSE法は音声と視覚の両方を用いて音声強調を行う。
我々の知る限りでは、この特定のタスクにどの視覚的特徴が最適であるかを調査する論文は発表されていない。
本研究は, 組込み型機能の全体的な性能が向上しているにもかかわらず, 計算集約的な事前処理により, 低資源システムでは利用が困難であることを示す。
論文 参考訳(メタデータ) (2020-11-09T11:48:14Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。