論文の概要: Improving Vietnamese Named Entity Recognition from Speech Using Word
Capitalization and Punctuation Recovery Models
- arxiv url: http://arxiv.org/abs/2010.00198v1
- Date: Thu, 1 Oct 2020 05:21:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 08:02:20.353432
- Title: Improving Vietnamese Named Entity Recognition from Speech Using Word
Capitalization and Punctuation Recovery Models
- Title(参考訳): 単語大文字化と句読点復元モデルを用いたベトナム語名称認識の改善
- Authors: Thai Binh Nguyen, Quang Minh Nguyen, Thi Thu Hien Nguyen, Quoc Truong
Do, Chi Mai Luong
- Abstract要約: 名前付きエンティティ認識(NER)タスクの研究は、入力テキスト上で人間のパリティに達する優れた結果を示している。
NERタスクのためのベトナム語音声データセットとベトナム語のための大規模な言語モデルについて述べる。
本研究では,音声からNERタスクのための新しいパイプラインを提案する。このパイプラインにテキスト大文字化・句読解モデル(CaPu)を導入することで,テキストフォーマッティングの問題を克服する。
- 参考スコア(独自算出の注目度): 2.9538906120661172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies on the Named Entity Recognition (NER) task have shown outstanding
results that reach human parity on input texts with correct text formattings,
such as with proper punctuation and capitalization. However, such conditions
are not available in applications where the input is speech, because the text
is generated from a speech recognition system (ASR), and that the system does
not consider the text formatting. In this paper, we (1) presented the first
Vietnamese speech dataset for NER task, and (2) the first pre-trained public
large-scale monolingual language model for Vietnamese that achieved the new
state-of-the-art for the Vietnamese NER task by 1.3% absolute F1 score
comparing to the latest study. And finally, (3) we proposed a new pipeline for
NER task from speech that overcomes the text formatting problem by introducing
a text capitalization and punctuation recovery model (CaPu) into the pipeline.
The model takes input text from an ASR system and performs two tasks at the
same time, producing proper text formatting that helps to improve NER
performance. Experimental results indicated that the CaPu model helps to
improve by nearly 4% of F1-score.
- Abstract(参考訳): Named Entity Recognition (NER) タスクの研究は、適切な句読点や大文字化などの正しいテキストフォーマットを持つ入力テキストに対して、人間のパリティに達する優れた結果を示している。
しかし、テキストは音声認識システム(asr)から生成され、システムはテキストフォーマットを考慮していないため、入力が音声であるアプリケーションではそのような条件は利用できない。
本稿では,(1) nerタスクのための最初のベトナム語音声データセットを提示し,(2) ベトナム語nerタスクの新たな最先端を,最新の研究と比較して1.3%の絶対的f1スコアで達成した,ベトナム初の大規模単言語モデルについて述べる。
最後に, 音声からのNERタスクのための新しいパイプラインを提案し, テキスト大文字化と句読解モデル(CaPu)をパイプラインに導入することで, テキストフォーマッティングの問題を克服した。
このモデルは、ASRシステムから入力テキストを受け取り、2つのタスクを同時に実行し、NERのパフォーマンスを改善するのに役立つ適切なテキストフォーマッティングを生成する。
実験の結果,CaPuモデルによりF1スコアの約4%の改善が得られた。
関連論文リスト
- Grammar Induction from Visual, Speech and Text [91.98797120799227]
本研究は、新しい視覚音声テキスト文法誘導タスク(textbfVAT-GI)を導入する。
言語文法がテキストを超えて存在するという事実に触発されて、テキストは文法帰納において支配的なモダリティであってはならないと論じる。
そこで本稿では,豊富なモーダル特化機能と補完機能を有効文法解析に活用した,ビジュアル・オーディオ・テキスト・インサイド・アウトサイド・オートエンコーダ(textbfVaTiora)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-01T02:24:18Z) - Generative Input: Towards Next-Generation Input Methods Paradigm [49.98958865125018]
我々はGeneInputという新しい生成入力パラダイムを提案する。
すべての入力シナリオと他のインテリジェントな補助入力関数を処理するためにプロンプトを使用し、ユーザーフィードバックでモデルを最適化し、パーソナライズされた結果を提供する。
その結果,FK2C(Full-mode Key-sequence to Characters)タスクにおいて,最先端のパフォーマンスを初めて達成したことを示す。
論文 参考訳(メタデータ) (2023-11-02T12:01:29Z) - Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Vietnamese Capitalization and Punctuation Recovery Models [1.9981375888949475]
原文入力のための前処理パイプラインでは、資本化と句読点復元が不可欠である。
本稿では,ベトナムにおける資本化と句読点回復のためのパブリックデータセットを提案し,ジョイントCapPuncという2つのタスクのジョイントモデルを提案する。
ベトナムのデータセットを用いた実験結果から,我々の関節モデルの有効性が単一モデルと過去の関節学習モデルと比較された。
論文 参考訳(メタデータ) (2022-07-04T10:45:24Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - Contextualized Spoken Word Representations from Convolutional
Autoencoders [2.28438857884398]
本稿では,畳み込み型オートエンコーダに基づくニューラルアーキテクチャを提案し,様々な長さの音声単語の構文的かつ意味論的に適切な文脈化表現をモデル化する。
提案モデルでは,他の2つの言語モデルと比較して頑健性を示すことができた。
論文 参考訳(メタデータ) (2020-07-06T16:48:11Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。