論文の概要: PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions
- arxiv url: http://arxiv.org/abs/2605.17860v1
- Date: Mon, 18 May 2026 05:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.816813
- Title: PAREDA: A Multi-Accent Speech Dataset of Natural Language Processing Research Discussions
- Title(参考訳): 自然言語処理研究のための多段階音声データセットPAREDA
- Authors: Sicheng Jin, Dipankar Srirag, Aditya Joshi,
- Abstract要約: この研究は、アクセント、自発性、およびドメイン固有の発話に起因する変動性に焦点を当てている。
特に,マルチアクセント音声データセットであるPAper Reading DAtaset(PAREDA)を紹介する。
我々は,アクセント混合の影響と発話速度の増加を解析し,PAREDA上でのSOTA ASRモデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 7.858383859663038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While modern Automatic Speech Recognition (ASR) systems achieve high accuracy on benchmark corpora, their performance often degrades when there is real-world variability. This work focuses on variability arising due to accented, spontaneous, and domain-specific speech. In particular, we introduce PAper REading DAtaset (PAREDA), a first-of-its-kind multi-accent speech dataset consisting of discussions on academic Natural Language Processing (NLP) papers between speakers with Australian, Indian-English, and Chinese English accents. Each session elicits a spontaneous monologue (a summary of a paper's abstract) and a non-monologue (a question-and-answer session between participants), resulting in a corpus rich with technical jargon and conversational phenomena. We evaluate the performance of SOTA ASR models on PAREDA, analysing the impact of accent mixing and increased speech rate. Our results show that, in the zero-shot setting, models perform worse, confirming the dataset's challenging nature. However, fine-tuning on PAREDA significantly reduces the Word Error Rate (WER), demonstrating that our dataset captures linguistic characteristics often missing from existing corpora. PAREDA serves as a valuable new resource for building and evaluating more robust and inclusive ASR systems for specialised, real-world applications.
- Abstract(参考訳): 最新の自動音声認識(ASR)システムは、ベンチマークコーパスで高い精度を達成するが、実世界の変動がある場合、その性能は劣化することが多い。
この研究は、アクセント、自発性、およびドメイン固有の発話に起因する変動性に焦点を当てている。
特に,オーストラリア語,インド英語,中国語のアクセントを持つ話者間での学術自然言語処理(NLP)論文の議論を主軸とした多段階音声データセットであるPAper Reading DAtaset(PAREDA)を紹介する。
各セッションは、自発的なモノローグ(論文の要約の要約)と非モノローグ(参加者間の質問と回答のセッション)を持ち込み、技術的ジャーゴンと会話現象に富むコーパスとなる。
我々は,アクセント混合の影響と発話速度の増加を解析し,PAREDA上でのSOTA ASRモデルの性能評価を行った。
その結果、ゼロショット設定では、モデルのパフォーマンスが悪化し、データセットの困難な性質が確認できた。
しかし、PAREDAの微調整によりワード誤り率(WER)が大幅に低下し、我々のデータセットが既存のコーパスからしばしば欠落している言語特性を捉えていることを示す。
PAREDAは、より堅牢で包括的なASRシステムを構築し、評価するための貴重な新しいリソースとして機能する。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - Character Beyond Speech: Leveraging Role-Playing Evaluation in Audio Large Language Models via Reinforcement Learning [57.22705949022221]
RoleJudgeは、音声大言語モデルを利用して、音声と文字のアライメントを評価する評価フレームワークである。
連鎖推論アノテーションを付加した最初の音声ロールプレイング評価データセットであるRoleChatを紹介する。
論文 参考訳(メタデータ) (2026-04-15T12:39:03Z) - Speaker-Aware Simulation Improves Conversational Speech Recognition [1.0251581485267474]
ハンガリー語会話型ASRのためのSASCフレームワークを適応し実装する。
C-SASC(C-SASC)は、発話時間に条件付きポーズモデリングを組み込んだ拡張版である。
我々は、BEA-Largeコーパスから合成ハンガリー語対話を生成し、それらを実際の会話データと組み合わせてASR訓練を行う。
論文 参考訳(メタデータ) (2026-02-04T17:12:09Z) - WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文 参考訳(メタデータ) (2026-01-08T02:23:21Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - ASR Benchmarking: Need for a More Representative Conversational Dataset [3.017953715883516]
本研究では、大人同士の非構造的な会話からなる、TalkBankから派生した多言語会話データセットを提案する。
その結果,会話環境下でのテストでは,様々な最先端のASRモデルに対して顕著な性能低下がみられた。
論文 参考訳(メタデータ) (2024-09-18T15:03:04Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Accented Speech Recognition: A Survey [0.0]
本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
論文 参考訳(メタデータ) (2021-04-21T20:21:06Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。