論文の概要: WESR: Scaling and Evaluating Word-level Event-Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.04508v1
- Date: Thu, 08 Jan 2026 02:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.988744
- Title: WESR: Scaling and Evaluating Word-level Event-Speech Recognition
- Title(参考訳): WESR: 単語レベルのイベント音声認識のスケーリングと評価
- Authors: Chenchen Yang, Kexin Huang, Liwei Fan, Qian Tu, Botian Jiang, Dong Zhang, Linqi Yin, Shimin Li, Zhaoye Fei, Qinyuan Cheng, Xipeng Qiu,
- Abstract要約: 音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。
改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
- 参考スコア(独自算出の注目度): 59.21814194620928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech conveys not only linguistic information but also rich non-verbal vocal events such as laughing and crying. While semantic transcription is well-studied, the precise localization of non-verbal events remains a critical yet under-explored challenge. Current methods suffer from insufficient task definitions with limited category coverage and ambiguous temporal granularity. They also lack standardized evaluation frameworks, hindering the development of downstream applications. To bridge this gap, we first develop a refined taxonomy of 21 vocal events, with a new categorization into discrete (standalone) versus continuous (mixed with speech) types. Based on the refined taxonomy, we introduce WESR-Bench, an expert-annotated evaluation set (900+ utterances) with a novel position-aware protocol that disentangles ASR errors from event detection, enabling precise localization measurement for both discrete and continuous events. We also build a strong baseline by constructing a 1,700+ hour corpus, and train specialized models, surpassing both open-source audio-language models and commercial APIs while preserving ASR quality. We anticipate that WESR will serve as a foundational resource for future research in modeling rich, real-world auditory scenes.
- Abstract(参考訳): 音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。
意味的転写はよく研究されているが、非言語事象の正確な位置決定は依然として重要な課題である。
現在の手法では、カテゴリー範囲が限定され、時間的粒度があいまいなタスク定義が不十分である。
また、標準化された評価フレームワークがなく、下流アプリケーションの開発を妨げる。
このギャップを埋めるために、我々はまず21の発声イベントの洗練された分類法を開発し、新しい分類法を離散型(スタンドアローン)と連続型(音声と混合型)に分類した。
本手法を応用したWESR-Benchは,ASRの誤りを事象検出から切り離し,離散イベントと連続イベントの両方の正確な位置測定を可能にする,新たな位置認識プロトコルを備えた,専門家によるアノテート評価セット(900以上の発話)である。
我々はまた、1700時間以上のコーパスを構築し、特別なモデルを訓練し、ASRの品質を維持しながら、オープンソースのオーディオ言語モデルと商用APIの両方を超越することで、強力なベースラインを構築します。
我々はWESRが、リッチで現実世界の聴覚シーンをモデリングする上で、将来の研究の基盤となることを期待する。
関連論文リスト
- Detect Any Sound: Open-Vocabulary Sound Event Detection with Multi-Modal Queries [18.147981850263708]
マルチモーダルクエリによってガイドされるオープン語彙SEDのための問合せベースのフレームワークを提案する。
DASMはSEDをフレームレベルの検索タスクとして定式化し、音声機能はテキストやオーディオプロンプトからのクエリベクトルと一致している。
DASMは、局所化精度と新しいクラスへの一般化のバランスを効果的に保ち、オープン語彙設定においてCLAPベースの手法より優れている。
論文 参考訳(メタデータ) (2025-07-22T08:24:01Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - Double Mixture: Towards Continual Event Detection from Speech [60.33088725100812]
音声イベント検出は、セマンティックイベントと音響イベントの両方のタグ付けを含むマルチメディア検索に不可欠である。
本稿では, 音声イベント検出における主な課題として, 過去の出来事を忘れることなく新たな事象を連続的に統合すること, 音響イベントからの意味のゆがみについて述べる。
本稿では,適応性を向上し,忘れることを防止するために,音声の専門知識と堅牢な記憶機構を融合する新しい手法「ダブルミキチャー」を提案する。
論文 参考訳(メタデータ) (2024-04-20T06:32:00Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z) - Investigating self-supervised, weakly supervised and fully supervised
training approaches for multi-domain automatic speech recognition: a study on
Bangladeshi Bangla [4.869409466908974]
音声認識システムはまだ、ドメインシフトによる堅牢性や一般化性の欠如に悩まされている。
本研究では,自己教師型wav2vec 2.0や弱教師型Whisperといった最先端の伝達学習手法の堅牢性について検討した。
また,これらのモデルをバングラデシュのバングラデシュASRベンチマークで評価することにより,コーパス構築におけるドメイン選択の重要性を示す。
論文 参考訳(メタデータ) (2022-10-24T02:18:03Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。