論文の概要: I'm Sorry for Your Loss: Spectrally-Based Audio Distances Are Bad at
Pitch
- arxiv url: http://arxiv.org/abs/2012.04572v2
- Date: Wed, 9 Dec 2020 20:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 02:42:18.143516
- Title: I'm Sorry for Your Loss: Spectrally-Based Audio Distances Are Bad at
Pitch
- Title(参考訳): お気の毒に:スペクトルベースの音声距離はピッチが悪い
- Authors: Joseph Turian, Max Henry
- Abstract要約: 本研究では,2つの定常正弦波間のピッチ距離を合成ベンチマークで比較した。
結果は驚くべきことです:多くはピッチ方向の感覚が悪いです。
我々のタスクは人間にはやさしいが、これらの音声距離では難しいため、自己教師型音声学習において大きな進歩が期待できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Growing research demonstrates that synthetic failure modes imply poor
generalization. We compare commonly used audio-to-audio losses on a synthetic
benchmark, measuring the pitch distance between two stationary sinusoids. The
results are surprising: many have poor sense of pitch direction. These
shortcomings are exposed using simple rank assumptions. Our task is trivial for
humans but difficult for these audio distances, suggesting significant progress
can be made in self-supervised audio learning by improving current losses.
- Abstract(参考訳): 成長する研究は、合成失敗モードは一般化が不十分であることを示している。
本研究では,2つの定常正弦波間のピッチ距離を合成ベンチマークで比較した。
多くの人はピッチ方向の感覚が不十分です。
これらの欠点は単純な階数仮定を用いて明らかにされる。
我々の課題は人間にはやさしいが、これらの音声距離では難しいため、現在の損失を改善することで、自己教師型音声学習において大きな進歩が期待できる。
関連論文リスト
- Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - AERO: Audio Super Resolution in the Spectral Domain [15.965382891955771]
スペクトル領域における音声および音楽信号を処理するオーディオ超解像モデルであるAEROについて述べる。
時間と周波数の両方のドメイン損失関数を用いてモデルを最適化する。
音声と音楽の両方を考慮した幅広いサンプルレートで高い性能を示す。
論文 参考訳(メタデータ) (2022-11-22T12:37:01Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Language-Based Audio Retrieval with Converging Tied Layers and
Contrastive Loss [21.706767918081905]
我々は,DCASE 2022で提案された新たな言語ベース音声検索課題に取り組む。
まず,オーディオエンコーダとテキストエンコーダを結合した,シンプルでスケーラブルなアーキテクチャを提案する。
第二に、このアーキテクチャと対照的な損失を併用することで、モデルがベースラインモデルの性能を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-06-29T13:59:19Z) - Towards Intelligibility-Oriented Audio-Visual Speech Enhancement [8.19144665585397]
本稿では,STOI(Modified short-time objective intelligibility)メトリックをトレーニングコスト関数として用いた完全畳み込み型AVSEモデルを提案する。
提案するI-O AV SEフレームワークは,従来の距離に基づく損失関数を訓練したオーディオ専用(AO)およびAVモデルより優れている。
論文 参考訳(メタデータ) (2021-11-18T11:47:37Z) - Audio Spectral Enhancement: Leveraging Autoencoders for Low Latency
Reconstruction of Long, Lossy Audio Sequences [0.0]
本稿では,低品質MP3音声波の長いシーケンスから高周波数を再構成するための新しい手法を提案する。
本アーキテクチャは,スキップ接続による音声波のスペクトル構造を保ちながら,いくつかのボトルネックを生じさせる。
差分量子化手法を用いて初期モデルのサイズを半減し、同時に推論時間を短縮する方法を示す。
論文 参考訳(メタデータ) (2021-08-08T18:06:21Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。