論文の概要: Auxiliary Sequence Labeling Tasks for Disfluency Detection
- arxiv url: http://arxiv.org/abs/2011.04512v2
- Date: Mon, 5 Apr 2021 13:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:09:27.669967
- Title: Auxiliary Sequence Labeling Tasks for Disfluency Detection
- Title(参考訳): ディフルエンシ検出のための補助シーケンスラベル作成タスク
- Authors: Dongyub Lee, Byeongil Ko, Myeong Cheol Shin, Taesun Whang, Daniel Lee,
Eun Hwa Kim, EungGyun Kim, and Jaechoon Jo
- Abstract要約: 本稿では,NERとPOSを補助的シーケンスラベリング(SL)タスクとして用い,不規則検出のための手法を提案する。
本稿では, 副SLタスクを用いた拡散検出モデルのトレーニングにより, 拡散検出におけるFスコアの向上が期待できることを示す。
広範に使われている英語スイッチボードデータセットによる実験結果から,本手法は拡散検出における従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 6.460424516393765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting disfluencies in spontaneous speech is an important preprocessing
step in natural language processing and speech recognition applications.
Existing works for disfluency detection have focused on designing a single
objective only for disfluency detection, while auxiliary objectives utilizing
linguistic information of a word such as named entity or part-of-speech
information can be effective. In this paper, we focus on detecting disfluencies
on spoken transcripts and propose a method utilizing named entity recognition
(NER) and part-of-speech (POS) as auxiliary sequence labeling (SL) tasks for
disfluency detection. First, we investigate cases that utilizing linguistic
information of a word can prevent mispredicting important words and can be
helpful for the correct detection of disfluencies. Second, we show that
training a disfluency detection model with auxiliary SL tasks can improve its
F-score in disfluency detection. Then, we analyze which auxiliary SL tasks are
influential depending on baseline models. Experimental results on the widely
used English Switchboard dataset show that our method outperforms the previous
state-of-the-art in disfluency detection.
- Abstract(参考訳): 自然言語処理および音声認識応用において,自然言語における不均一性の検出は重要な前処理である。
分散検出のための既存の研究は、単一の目的を設計することに集中しており、名前付きエンティティや音声情報などの単語の言語情報を利用する補助的な目的が有効である。
本稿では,音声書き起こしの不均一性の検出に着目し,名前付きエンティティ認識 (ner) とpart-of-speech (pos) を補助シーケンスラベリング (sl) タスクとして用いる手法を提案する。
まず,単語の言語情報を利用した場合,重要な単語の誤予測を防止し,不一致の正確な検出に役立てることができるかを検討する。
第2に,補助slタスクを用いた不流動検出モデルのトレーニングにより,不流動検出におけるfスコアが向上することを示す。
そして,ベースラインモデルによってどの副SLタスクが影響するかを分析する。
広範に使用される英語スイッチボードデータセットにおける実験結果から,本手法は従来の不整合検出法よりも優れていた。
関連論文リスト
- Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - Automatic Disfluency Detection from Untranscribed Speech [25.534535098405602]
発声は、高頻度の不一致を特徴とする発声障害である。
自動逆流検出は、不安定な個人に対する治療計画を立案するのに役立ちます。
本研究では,フレームレベルの自動ディフルエンシ検出と分類のための言語,音響,マルチモーダル手法について検討する。
論文 参考訳(メタデータ) (2023-11-01T21:36:39Z) - DisfluencyFixer: A tool to enhance Language Learning through Speech To
Speech Disfluency Correction [50.51901599433536]
DisfluencyFixerは、英語とヒンディー語で音声から音声への拡散補正を行うツールである。
提案システムでは,入力音声からの拡散を除去し,出力として流速音声を返却する。
論文 参考訳(メタデータ) (2023-05-26T14:13:38Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - From Disfluency Detection to Intent Detection and Slot Filling [12.289620439224839]
PhoATISはベトナム語で流用するインテント検出とスロットフィリングデータセットを拡張し,文脈の相違を手作業で追加し,注釈を付ける。
我々は, 学習済み言語モデルに基づく, 強いベースラインを用いて, 拡散検出, 共同意図検出, スロット充填を行う実験を行った。
i)下流の意図検出とスロット充足タスクのパフォーマンスに負の影響を及ぼし、(ii)分散コンテキストにおいて、事前学習された多言語言語モデルXLM-Rは、事前学習された単言語モデルPhoよりも優れた意図検出とスロット充足パフォーマンスをもたらす。
論文 参考訳(メタデータ) (2022-09-17T16:03:57Z) - Span Classification with Structured Information for Disfluency Detection
in Spoken Utterances [47.05113261111054]
本稿では,音声音声からテキスト中の不一致を検出する新しいアーキテクチャを提案する。
提案手法は, 広範に使われているイングリッシュスイッチボードを用いて, ディフルエンシ検出の最先端化を実現する。
論文 参考訳(メタデータ) (2022-03-30T03:22:29Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。