論文の概要: The impact of removing head movements on audio-visual speech enhancement
- arxiv url: http://arxiv.org/abs/2202.00538v2
- Date: Wed, 2 Feb 2022 11:05:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-03 12:07:39.991144
- Title: The impact of removing head movements on audio-visual speech enhancement
- Title(参考訳): 頭部運動の除去が音声・視覚音声強調に与える影響
- Authors: Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob
Donley and Anurag Kumar
- Abstract要約: 本稿では,頭部運動が音声・視覚音声強調(AVSE)に与える影響について検討する。
可変オートエンコーダ(VAE)モデルに基づくAVSE法と組み合わせて,頑健な顔のフロンダリゼーション(RFF)を提案する。
- 参考スコア(独自算出の注目度): 36.57229236123827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the impact of head movements on audio-visual speech
enhancement (AVSE). Although being a common conversational feature, head
movements have been ignored by past and recent studies: they challenge today's
learning-based methods as they often degrade the performance of models that are
trained on clean, frontal, and steady face images. To alleviate this problem,
we propose to use robust face frontalization (RFF) in combination with an AVSE
method based on a variational auto-encoder (VAE) model. We briefly describe the
basic ingredients of the proposed pipeline and we perform experiments with a
recently released audio-visual dataset. In the light of these experiments, and
based on three standard metrics, namely STOI, PESQ and SI-SDR, we conclude that
RFF improves the performance of AVSE by a considerable margin.
- Abstract(参考訳): 本稿では,頭部運動が音声・視覚音声強調(AVSE)に与える影響について検討する。
彼らはしばしば、クリーンで前頭、安定した顔画像で訓練されたモデルのパフォーマンスを劣化させるため、今日の学習ベースの手法に挑戦している。
この問題を軽減するために、可変オートエンコーダ(VAE)モデルに基づくAVSE法と組み合わせて、頑健な顔のフロンダライゼーション(RFF)を提案する。
提案するパイプラインの基本成分を簡潔に説明し,最近リリースされた視聴覚データセットを用いて実験を行う。
これらの実験を踏まえ、STOI, PESQ, SI-SDRの3つの標準指標に基づき、RFFはAVSEの性能をかなり向上させると結論付けた。
関連論文リスト
- Improving Neural Surface Reconstruction with Feature Priors from Multi-View Image [87.00660347447494]
ニューラルサーフェス・コンストラクション(NSR)の最近の進歩は、ボリュームレンダリングと組み合わせることで、マルチビュー・コンストラクションを著しく改善している。
本稿では,多種多様な視覚的タスクから価値ある特徴を活用すべく,特徴レベルの一貫した損失について検討する。
DTU と EPFL を用いて解析した結果,画像マッチングと多視点ステレオデータセットによる特徴が,他のプリテキストタスクよりも優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-04T16:09:46Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot
AV-ASR [79.21857972093332]
本稿では,視覚情報を用いた音声のみのモデル拡張手法であるAVFormerについて述べる。
最小限のトレーニング時間とパラメータで、弱ラベル付き動画データを少量でトレーニングできることが示される。
また、トレーニング中に簡単なカリキュラム方式を導入し、モデルが音声と視覚情報を効果的に処理できることを示します。
論文 参考訳(メタデータ) (2023-03-29T07:24:28Z) - GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face
Synthesis [62.297513028116576]
GeneFace は、汎用的で高忠実な NeRF ベースの話し顔生成法である。
ヘッド・トルソ問題を解消するために,ヘッド・アウェア・トルソ・NeRFを提案する。
論文 参考訳(メタデータ) (2023-01-31T05:56:06Z) - Towards Robust Real-time Audio-Visual Speech Enhancement [8.183895606832623]
本稿では低レイテンシ話者非依存型AVSEのための新しいフレームワークを提案する。
特に, AV SEにおける視覚的不完全性の現実的問題に対処するために, GAN(Generative Adversarial Network)を提案する。
我々は、より堅牢なSEを提供するために、GANから出力されるクリーンな視覚音声を考慮に入れた、ディープニューラルネットワークに基づくリアルタイムAVSEモデルを提案する。
論文 参考訳(メタデータ) (2021-12-16T17:54:45Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Improved Lite Audio-Visual Speech Enhancement [27.53117725152492]
本稿では,自動車走行シナリオに対するLAVSEアルゴリズムを提案する。
本研究では,AVSEシステムの実装においてしばしば遭遇する3つの実践的問題に対処する能力を向上させるために,LAVSEを拡張した。
台湾・マンダリン語音声におけるiLAVSEをビデオデータセットを用いて評価した。
論文 参考訳(メタデータ) (2020-08-30T17:29:19Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。