論文の概要: AERO: Audio Super Resolution in the Spectral Domain
- arxiv url: http://arxiv.org/abs/2211.12232v1
- Date: Tue, 22 Nov 2022 12:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 19:38:35.797569
- Title: AERO: Audio Super Resolution in the Spectral Domain
- Title(参考訳): AERO:スペクトル領域におけるオーディオ超解像
- Authors: Moshe Mandel, Or Tal, Yossi Adi
- Abstract要約: スペクトル領域における音声および音楽信号を処理するオーディオ超解像モデルであるAEROについて述べる。
時間と周波数の両方のドメイン損失関数を用いてモデルを最適化する。
音声と音楽の両方を考慮した幅広いサンプルレートで高い性能を示す。
- 参考スコア(独自算出の注目度): 15.965382891955771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present AERO, a audio super-resolution model that processes speech and
music signals in the spectral domain. AERO is based on an encoder-decoder
architecture with U-Net like skip connections. We optimize the model using both
time and frequency domain loss functions. Specifically, we consider a set of
reconstruction losses together with perceptual ones in the form of adversarial
and feature discriminator loss functions. To better handle phase information
the proposed method operates over the complex-valued spectrogram using two
separate channels. Unlike prior work which mainly considers low and high
frequency concatenation for audio super-resolution, the proposed method
directly predicts the full frequency range. We demonstrate high performance
across a wide range of sample rates considering both speech and music. AERO
outperforms the evaluated baselines considering Log-Spectral Distance, ViSQOL,
and the subjective MUSHRA test. Audio samples and code are available at
https://pages.cs.huji.ac.il/adiyoss-lab/aero
- Abstract(参考訳): スペクトル領域における音声および音楽信号を処理するオーディオ超解像モデルであるAEROを提案する。
AEROは、スキップ接続のようなU-Netを持つエンコーダデコーダアーキテクチャに基づいている。
時間と周波数の両方のドメイン損失関数を用いてモデルを最適化する。
具体的には,コンストラクション損失の組と知覚損失の組を,敵対的および特徴的識別的損失関数の形で検討する。
位相情報を処理するため、提案手法は2つの異なるチャネルを用いて複素値スペクトログラム上で動作する。
スーパーレゾリューションの低域と高域の結合を主に考慮した先行研究とは異なり,提案手法は全周波数域を直接予測する。
音声と音楽の両方を考慮して,多種多様なサンプルレートで高い性能を示す。
AEROは、Log-Spectral Distance、ViSQOL、および主観的MUSHRAテストを考慮して評価基準線を上回ります。
オーディオサンプルとコードはhttps://pages.cs.huji.ac.il/adiyoss-lab/aeroで入手できる。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文 参考訳(メタデータ) (2024-05-30T13:47:53Z) - TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Global Spectral Filter Memory Network for Video Object Segmentation [33.42697528492191]
本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
論文 参考訳(メタデータ) (2022-10-11T16:02:02Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。