論文の概要: SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
- arxiv url: http://arxiv.org/abs/2406.13340v1
- Date: Wed, 19 Jun 2024 08:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 22:30:00.734567
- Title: SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words
- Title(参考訳): SD-Eval: 単語以外の対話理解のためのベンチマークデータセット
- Authors: Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu,
- Abstract要約: 音声対話理解と生成の多次元評価を目的としたベンチマークデータセットであるSD-Evalを提案する。
我々は3つの異なるモデルを実装し、SD-Evalと同様のプロセスに従ってトレーニングセットを構築する。
トレーニングセットには、1,052.72時間の音声データと724.4kの発話が含まれている。
- 参考スコア(独自算出の注目度): 45.2706444740307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech encompasses a wealth of information, including but not limited to content, paralinguistic, and environmental information. This comprehensive nature of speech significantly impacts communication and is crucial for human-computer interaction. Chat-Oriented Large Language Models (LLMs), known for their general-purpose assistance capabilities, have evolved to handle multi-modal inputs, including speech. Although these models can be adept at recognizing and analyzing speech, they often fall short of generating appropriate responses. We argue that this is due to the lack of principles on task definition and model development, which requires open-source datasets and metrics suitable for model evaluation. To bridge the gap, we present SD-Eval, a benchmark dataset aimed at multidimensional evaluation of spoken dialogue understanding and generation. SD-Eval focuses on paralinguistic and environmental information and includes 7,303 utterances, amounting to 8.76 hours of speech data. The data is aggregated from eight public datasets, representing four perspectives: emotion, accent, age, and background sound. To assess the SD-Eval benchmark dataset, we implement three different models and construct a training set following a similar process as SD-Eval. The training set contains 1,052.72 hours of speech data and 724.4k utterances. We also conduct a comprehensive evaluation using objective evaluation methods (e.g. BLEU and ROUGE), subjective evaluations and LLM-based metrics for the generated responses. Models conditioned with paralinguistic and environmental information outperform their counterparts in both objective and subjective measures. Moreover, experiments demonstrate LLM-based metrics show a higher correlation with human evaluation compared to traditional metrics. We open-source SD-Eval at https://github.com/amphionspace/SD-Eval.
- Abstract(参考訳): スピーチには豊富な情報が含まれており、内容、パラ言語、環境情報に限定されない。
この包括的言語の性質はコミュニケーションに大きな影響を与え、人間とコンピュータの相互作用に不可欠である。
汎用補助機能で知られるチャット指向大規模言語モデル (LLM) は、音声を含むマルチモーダル入力を扱うように進化してきた。
これらのモデルは、音声認識や分析に適しているが、適切な応答を生成するには不十分であることが多い。
これは、オープンソースのデータセットとモデル評価に適したメトリクスを必要とするタスク定義とモデル開発に関する原則が欠如しているためである、と我々は主張する。
このギャップを埋めるために,音声対話理解と生成の多次元評価を目的としたベンチマークデータセットSD-Evalを提案する。
SD-Evalはパラ言語と環境情報に重点を置いており、発話は7,303件あり、音声データは8.76時間である。
データは8つの公開データセットから集約され、感情、アクセント、年齢、背景音の4つの視点を表す。
SD-Evalベンチマークデータセットを評価するため、3つの異なるモデルを実装し、SD-Evalと同様のプロセスに従ってトレーニングセットを構築する。
トレーニングセットには、1,052.72時間の音声データと724.4kの発話が含まれている。
また、客観的評価手法(例えばBLEUとROUGE)、主観的評価、LLMに基づく評価を用いて総合的な評価を行う。
パラ言語的・環境的な情報が調和したモデルは、客観的・主観的な尺度の両方において、相手よりも優れている。
さらに, LLMを用いた計測実験では, 従来の測定値と比較して, 人体評価と高い相関性を示した。
SD-Evalはhttps://github.com/amphionspace/SD-Eval.comでオープンソース公開しています。
関連論文リスト
- Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning [10.897468059705238]
監督されたパラフレーズは、意味と意図を維持するために大量のラベル付きデータに大きく依存している。
本稿では,大規模言語モデル(LLM)を用いたICL(In-Context Learning)を探索し,実践者を支援することを目的とする。
本研究は, 実演数と順序, 即時指導の排除, 測定毒性の低下など, 重要な要因に焦点を当てた。
論文 参考訳(メタデータ) (2023-10-16T16:18:55Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - SEAHORSE: A Multilingual, Multifaceted Dataset for Summarization
Evaluation [52.186343500576214]
本稿では,多言語・多面的要約評価のためのデータセットSEAHORSEを紹介する。
SEAHORSEは、テキスト品質の6次元に沿って人間格付けされた96Kの要約で構成されている。
本稿では,SEAHORSEでトレーニングしたメトリクスが,ドメイン外メタ評価ベンチマークTRUEとmFACEで高い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-05-22T16:25:07Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Evaluating Groundedness in Dialogue Systems: The BEGIN Benchmark [29.722504033424382]
知識ベースの対話エージェントは、Wikipediaページなどの外部に提供される背景情報に基づいて会話を行うように設計されたシステムです。
BEGIN(Benchmark for Evaluation of Grounded Interaction)について紹介します。
beginは、言語モデルに基づく対話システムによって生成された8113の対話ターンからなり、システムの応答と背景情報の関係を人間の注釈で指定する。
論文 参考訳(メタデータ) (2021-04-30T20:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。