論文の概要: Evaluating the reliability of acoustic speech embeddings
- arxiv url: http://arxiv.org/abs/2007.13542v2
- Date: Fri, 6 Nov 2020 13:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 08:02:02.599938
- Title: Evaluating the reliability of acoustic speech embeddings
- Title(参考訳): 音響音声埋め込みの信頼性評価
- Authors: Robin Algayres, Mohamed Salah Zaiem, Benoit Sagot, Emmanuel Dupoux
- Abstract要約: 音声埋め込みは可変長音声列の定サイズ音響表現である。
ここでは,ABX識別と平均精度 (MAP) という2つの一般的な指標を,17の埋め込み手法にまたがる5つの言語で体系的に比較する。
ABXとMAPは相互に相関し,周波数推定を行う。
- 参考スコア(独自算出の注目度): 10.5754802112615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech embeddings are fixed-size acoustic representations of variable-length
speech sequences. They are increasingly used for a variety of tasks ranging
from information retrieval to unsupervised term discovery and speech
segmentation. However, there is currently no clear methodology to compare or
optimise the quality of these embeddings in a task-neutral way. Here, we
systematically compare two popular metrics, ABX discrimination and Mean Average
Precision (MAP), on 5 languages across 17 embedding methods, ranging from
supervised to fully unsupervised, and using different loss functions
(autoencoders, correspondence autoencoders, siamese). Then we use the ABX and
MAP to predict performances on a new downstream task: the unsupervised
estimation of the frequencies of speech segments in a given corpus. We find
that overall, ABX and MAP correlate with one another and with frequency
estimation. However, substantial discrepancies appear in the fine-grained
distinctions across languages and/or embedding methods. This makes it
unrealistic at present to propose a task-independent silver bullet method for
computing the intrinsic quality of speech embeddings. There is a need for more
detailed analysis of the metrics currently used to evaluate such embeddings.
- Abstract(参考訳): 音声埋め込みは可変長音声列の定サイズ音響表現である。
これらは情報検索から教師なしの用語発見や音声セグメンテーションまで、様々なタスクでますます使われている。
しかし、現時点ではこれらの埋め込みの品質をタスク中立な方法で比較または最適化するための明確な方法がない。
ここでは,ABX識別と平均精度(MAP)の2つの一般的な指標を,教師付きから完全に教師なしまでの5言語で比較し,異なる損失関数(オートエンコーダ,対応オートエンコーダ,シアム)を用いた。
次に、abxとmapを用いて、新しい下流タスクにおけるパフォーマンスを予測する:指定されたコーパスにおける音声セグメントの周波数の教師なし推定。
その結果,abxとmapは相互に相関し,周波数推定を行うことがわかった。
しかし、言語と/または埋め込み方法の微妙な区別にはかなりの相違が見られる。
これにより、現在非現実的であり、音声埋め込みの本質的な品質を計算するためのタスク非依存の銀弾丸法を提案する。
このような埋め込みを評価するために現在使われているメトリクスについて、より詳細な分析が必要である。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Establishing degrees of closeness between audio recordings along
different dimensions using large-scale cross-lingual models [4.349838917565205]
そこで本稿では,メタデータを慎重にキュレートした音声録音におけるABXテストを用いた教師なしの新しい手法を提案する。
3つの実験が考案され、1つは室内音響、もう1つは言語学的ジャンル、もう1つは音声学的側面である。
その結果,異なる言語・言語的特徴を持つ記録から抽出した表現は,同じ線に沿って異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-08T11:31:23Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Smart Speech Segmentation using Acousto-Linguistic Features with
look-ahead [3.579111205766969]
本稿では,音響情報と言語情報を併用してセグメンテーションを改善するハイブリッド手法を提案する。
平均して、私たちのモデルはセグメンテーション-F0.5スコアをベースラインで9.8%改善します。
機械翻訳の下流タスクでは、BLEUスコアを平均1.05ポイント改善する。
論文 参考訳(メタデータ) (2022-10-26T03:36:31Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Constructing interval variables via faceted Rasch measurement and
multitask deep learning: a hate speech application [63.10266319378212]
本稿では,教師付き深層学習と多面的ラッシュアイテム応答理論(IRT)構築手法を組み合わせることで,連続区間スペクトル上の複素変数を測定する手法を提案する。
われわれは、YouTube、Twitter、Redditから5万件のソーシャルメディアコメントを収集し、1万1000人の米国拠点のAmazon Mechanical Turkの労働者によってラベル付けされたデータセット上で、この新しい手法を実証した。
論文 参考訳(メタデータ) (2020-09-22T02:15:05Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。