論文の概要: A Suite for Acoustic Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2409.07437v2
- Date: Wed, 27 Nov 2024 18:24:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:23:01.210335
- Title: A Suite for Acoustic Language Model Evaluation
- Title(参考訳): 音響言語モデル評価用スイート
- Authors: Gallil Maimon, Amit Roth, Yossi Adi,
- Abstract要約: SALMonは、背景雑音、感情、話者識別、室内インパルス応答を含む新しい評価スイートである。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
- 参考スコア(独自算出の注目度): 20.802090523583196
- License:
- Abstract: Speech language models have recently demonstrated great potential as universal speech processing systems. Such models have the ability to model the rich acoustic information existing in audio signals, beyond spoken content, such as emotion, background noise, etc. Despite this, evaluation benchmarks which evaluate awareness to a wide range of acoustic aspects, are lacking. To help bridge this gap, we introduce SALMon, a novel evaluation suite encompassing background noise, emotion, speaker identity and room impulse response. The proposed benchmarks both evaluate the consistency of the inspected element and how much it matches the spoken text. We follow a modelling based approach, measuring whether a model gives correct samples higher scores than incorrect ones. This approach makes the benchmark fast to compute even for large models. We evaluated several speech language models on SALMon, thus highlighting the strengths and weaknesses of each evaluated method. We make the code and data publicly available at https://pages.cs.huji.ac.il/adiyoss-lab/salmon/ .
- Abstract(参考訳): 近年,言語モデルが普遍的な音声処理システムとして大きな可能性を証明している。
このようなモデルは、感情や背景雑音などの音声コンテンツを超えて、音声信号に存在する豊富な音響情報をモデル化することができる。
それにもかかわらず、幅広い音響的側面に対する認識を評価する評価ベンチマークは欠落している。
このギャップを埋めるために、バックグラウンドノイズ、感情、話者のアイデンティティ、部屋のインパルス応答を含む新しい評価スイートであるSALMonを紹介する。
提案したベンチマークは、検査された要素の一貫性と、それが音声テキストとどの程度一致しているかを評価する。
我々は、モデルが正しいサンプルのスコアを正しく与えているかどうかを測定する、モデリングに基づくアプローチに従う。
このアプローチにより、ベンチマークは大規模モデルでも高速に計算できる。
SALMon 上で複数の言語モデルを評価し,評価手法の長所と短所を強調した。
コードとデータはhttps://pages.cs.huji.ac.il/adiyoss-lab/salmon/で公開しています。
関連論文リスト
- CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。