論文の概要: Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks
- arxiv url: http://arxiv.org/abs/2502.13645v1
- Date: Wed, 19 Feb 2025 11:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:14.931845
- Title: Measuring the Effect of Transcription Noise on Downstream Language Understanding Tasks
- Title(参考訳): 下流言語理解課題における転写騒音の影響の測定
- Authors: Ori Shapira, Shlomo E. Chazan, Amir DN Cohen,
- Abstract要約: 本稿では,様々な雑音環境下でタスクモデルを評価するためのフレームワークを提案する。
タスクモデルは特定のレベルのノイズを許容でき、スクリプタ内のエラーの種類によって異なる影響を受けることがわかった。
- 参考スコア(独自算出の注目度): 9.284905374340804
- License:
- Abstract: With the increasing prevalence of recorded human speech, spoken language understanding (SLU) is essential for its efficient processing. In order to process the speech, it is commonly transcribed using automatic speech recognition technology. This speech-to-text transition introduces errors into the transcripts, which subsequently propagate to downstream NLP tasks, such as dialogue summarization. While it is known that transcript noise affects downstream tasks, a systematic approach to analyzing its effects across different noise severities and types has not been addressed. We propose a configurable framework for assessing task models in diverse noisy settings, and for examining the impact of transcript-cleaning techniques. The framework facilitates the investigation of task model behavior, which can in turn support the development of effective SLU solutions. We exemplify the utility of our framework on three SLU tasks and four task models, offering insights regarding the effect of transcript noise on tasks in general and models in particular. For instance, we find that task models can tolerate a certain level of noise, and are affected differently by the types of errors in the transcript.
- Abstract(参考訳): 記録音声の普及に伴い、その効率的な処理には音声言語理解(SLU)が不可欠である。
音声処理には,音声認識技術を用いて書き起こされることが多い。
この音声からテキストへの遷移は、書き起こしに誤りを導入し、その後、対話要約のような下流のNLPタスクに伝播する。
書き起こしノイズが下流のタスクに影響を及ぼすことは知られているが、異なるノイズの重大さやタイプにまたがる影響を分析するための体系的なアプローチは未解決である。
本稿では,多様な雑音環境下でタスクモデルを評価するための構成可能なフレームワークを提案する。
このフレームワークは,効率的なSLUソリューションの開発を支援するタスクモデル行動の調査を容易にする。
3つのSLUタスクと4つのタスクモデルに対するフレームワークの有用性を実証し、一般的なタスク、特にモデルにおける書き起こしノイズの影響についての洞察を提供する。
例えば、タスクモデルは特定のレベルのノイズを許容でき、転写中のエラーの種類によって異なる影響を受けます。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Back Transcription as a Method for Evaluating Robustness of Natural
Language Understanding Models to Speech Recognition Errors [0.4681661603096333]
音声対話システムにおいて、自然言語理解の性能を劣化させることができる音声認識システムにより、NLUモデルが先行する。
本稿では,音声認識誤りが自然言語理解モデルの性能に与える影響を調査する手法を提案する。
論文 参考訳(メタデータ) (2023-10-25T13:07:07Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Adversarial Feature Learning and Unsupervised Clustering based Speech
Synthesis for Found Data with Acoustic and Textual Noise [18.135965605011105]
注意に基づくシーケンス・ツー・シーケンス(seq2seq)音声合成は、異常な性能を達成している。
このようなSeq2seqシステムをトレーニングするには、手書きによるスタジオ品質のコーパスが必要である。
本稿では,高品質で安定したSeq2seqに基づく音声合成システムの構築手法を提案する。
論文 参考訳(メタデータ) (2020-04-28T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。