論文の概要: Investigating Cross-Domain Losses for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2010.10468v2
- Date: Sun, 30 May 2021 01:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:05:54.084484
- Title: Investigating Cross-Domain Losses for Speech Enhancement
- Title(参考訳): 音声強調のためのクロスドメイン損失の検討
- Authors: Sherif Abdulatif, Karim Armanious, Jayasankar T. Sajeev, Karim
Guirguis, Bin Yang
- Abstract要約: 近年,音声強調(SE)と認識のためのフレームワークが急増している。
本研究では,それぞれのアプローチの利点について,音声の明瞭さと品質に対する影響を別々に調べて検討する。
- 参考スコア(独自算出の注目度): 7.641695369120866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen a surge in the number of available frameworks for
speech enhancement (SE) and recognition. Whether model-based or constructed via
deep learning, these frameworks often rely in isolation on either time-domain
signals or time-frequency (TF) representations of speech data. In this study,
we investigate the advantages of each set of approaches by separately examining
their impact on speech intelligibility and quality. Furthermore, we combine the
fragmented benefits of time-domain and TF speech representations by introducing
two new cross-domain SE frameworks. A quantitative comparative analysis against
recent model-based and deep learning SE approaches is performed to illustrate
the merit of the proposed frameworks.
- Abstract(参考訳): 近年,音声強調(SE)と認識のためのフレームワークが急増している。
モデルベースであろうと、深層学習であろうと、これらのフレームワークはしばしば、音声データの時間領域信号または時間周波数(TF)表現に依存する。
本研究では,それぞれのアプローチの利点について,音声の明瞭さと品質に対する影響を個別に調べて検討する。
さらに,2つの新しいクロスドメインSEフレームワークを導入することで,時間領域とTF音声表現の断片化された利点を組み合わせる。
近年のモデルベースおよびディープラーニングSEアプローチに対する定量的比較分析を行い,提案フレームワークのメリットを説明する。
関連論文リスト
- A Joint Spectro-Temporal Relational Thinking Based Acoustic Modeling Framework [10.354955365036181]
リレーショナル思考は人間の音声理解において重要な役割を担っているが、人工音声認識システムではまだ活用されていない。
本稿では,スペクトル時間的関係思考に基づく音響モデリングフレームワークを提案する。
このフレームワーク上に構築されたモデルは、TIMITデータセットよりも7.82%の音素認識タスクを改善した最先端システムを上回っている。
論文 参考訳(メタデータ) (2024-09-17T05:45:33Z) - Understanding the Cross-Domain Capabilities of Video-Based Few-Shot Action Recognition Models [3.072340427031969]
Few-shot Action Recognition (FSAR) は、ビデオ中の新しいアクションをわずかに例を使って識別できるモデルを学ぶことを目的としている。
メタトレーニング中に見られるベースデータセットと評価に使用される新しいデータセットは、異なるドメインから得ることができると仮定すると、クロスドメインの少数ショット学習によってデータ収集とアノテーションコストが軽減される。
我々は、新しいクロスドメインタスクに対して、既存の最先端の単一ドメイン、転送ベース、およびクロスドメインFSARメソッドを体系的に評価する。
論文 参考訳(メタデータ) (2024-06-03T07:48:18Z) - Long-Term Invariant Local Features via Implicit Cross-Domain
Correspondences [79.21515035128832]
我々は、様々なドメイン変更の下で、現在の最先端特徴抽出ネットワークの性能を徹底的に分析する。
我々は、新しいデータ中心方式、Implicit Cross-Domain Correspondences (iCDC)を提案する。
iCDCは複数のニューラル・ラジアンス・フィールドで同じ環境を表し、それぞれが個々の視覚領域の下にシーンを適合させる。
論文 参考訳(メタデータ) (2023-11-06T18:53:01Z) - Revisiting the Temporal Modeling in Spatio-Temporal Predictive Learning
under A Unified View [73.73667848619343]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Modeling long-term interactions to enhance action recognition [81.09859029964323]
本稿では,フレームレベルと時間レベルの両方でオブジェクト間の相互作用のセマンティクスを利用する,エゴセントリックなビデオのアンダースタンドアクションに対する新しいアプローチを提案する。
ユーザの手とほぼ対応するプライマリ領域と、相互作用するオブジェクトに対応する可能性のあるセカンダリ領域のセットを入力として、領域ベースのアプローチを使用する。
提案手法は, 標準ベンチマークの動作認識において, 最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-23T10:08:15Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。