論文の概要: Seed Words Based Data Selection for Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2107.09433v1
- Date: Tue, 20 Jul 2021 12:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:02:00.771470
- Title: Seed Words Based Data Selection for Language Model Adaptation
- Title(参考訳): 言語モデル適応のための種単語に基づくデータ選択
- Authors: Roberto Gretter, Marco Matassoni, Daniele Falavigna
- Abstract要約: 本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
- 参考スコア(独自算出の注目度): 11.59717828860318
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We address the problem of language model customization in applications where
the ASR component needs to manage domain-specific terminology; although current
state-of-the-art speech recognition technology provides excellent results for
generic domains, the adaptation to specialized dictionaries or glossaries is
still an open issue. In this work we present an approach for automatically
selecting sentences, from a text corpus, that match, both semantically and
morphologically, a glossary of terms (words or composite words) furnished by
the user. The final goal is to rapidly adapt the language model of an hybrid
ASR system with a limited amount of in-domain text data in order to
successfully cope with the linguistic domain at hand; the vocabulary of the
baseline model is expanded and tailored, reducing the resulting OOV rate. Data
selection strategies based on shallow morphological seeds and semantic
similarity viaword2vec are introduced and discussed; the experimental setting
consists in a simultaneous interpreting scenario, where ASRs in three languages
are designed to recognize the domain-specific terms (i.e. dentistry). Results
using different metrics (OOV rate, WER, precision and recall) show the
effectiveness of the proposed techniques.
- Abstract(参考訳): 我々は、ASRコンポーネントがドメイン固有の用語を管理する必要があるアプリケーションにおける言語モデルカスタマイズの問題に対処する。現在最先端の音声認識技術は汎用ドメインに優れた結果をもたらすが、専門辞書や用語集への適応は依然として未解決の問題である。
本稿では,テキストコーパスから,意味的にも形態的にも,ユーザによって提供された単語(単語や複合語)の用語集にマッチする文を自動的に選択する手法を提案する。
最終ゴールは、言語領域にうまく対処するために、限られたドメイン内テキストデータでハイブリッドASRシステムの言語モデルを迅速に適応することであり、ベースラインモデルの語彙を拡大調整し、OOVレートを低減させる。
浅い形態素の種と2vecによる意味的類似性に基づくデータ選択戦略を導入し議論し、3つの言語におけるASRがドメイン固有項(すなわち、ドメイン固有項)を認識するように設計された同時解釈シナリオからなる。
歯科医)。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
関連論文リスト
- Evaluating Shortest Edit Script Methods for Contextual Lemmatization [6.0158981171030685]
現代の文脈補綴器は、単語の形式を補題に変換するために、しばしば自動的に誘導された短い編集スクリプト(SES)に依存している。
これまでの研究では,SESが最終補修性能にどのような影響を及ぼすかは調査されていない。
ケーシング操作と編集操作を別々に計算することは、全体として有益であるが、高機能な形態を持つ言語には、より明確に有用であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:28:24Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Graph Adaptive Semantic Transfer for Cross-domain Sentiment
Classification [68.06496970320595]
クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。
本稿では、単語列と構文グラフの両方からドメイン不変セマンティクスを学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。
論文 参考訳(メタデータ) (2022-05-18T07:47:01Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Contextual Biasing of Language Models for Speech Recognition in
Goal-Oriented Conversational Agents [11.193867567895353]
ゴール指向の会話インターフェイスは特定のタスクを達成するように設計されている。
推論時に提供されるサンプル発話にBERTから派生したコンテキスト埋め込みを利用する新しいアーキテクチャを提案する。
本実験では,目標指向音声データセットにおける非文脈発話レベルNLMレコレータに対する単語誤り率(WER)の相対的な7%の低減を示した。
論文 参考訳(メタデータ) (2021-03-18T15:38:08Z) - Evolutionary optimization of contexts for phonetic correction in speech
recognition systems [0.0]
汎用的なASRシステムはドメイン固有言語を使用するアプリケーションで失敗することが一般的である。
言語モデルを変更するコンテキストを提供するなど、エラーを減らすためにさまざまな戦略が使用されている。
この記事では、特定のアプリケーションドメインに最適化されたコンテキストを生成するための進化的プロセスの使用について説明します。
論文 参考訳(メタデータ) (2021-02-23T04:14:51Z) - Adapting BERT for Word Sense Disambiguation with Gloss Selection
Objective and Example Sentences [18.54615448101203]
BERTのような事前訓練された言語モデルを用いたドメイン適応や伝達学習は、多くの自然言語処理タスクにおいて効果的なアプローチであることが証明されている。
関連性ランキングタスクとして単語感覚の曖昧さを定式化し、シーケンスペアランキングタスクで細いBERTを用いて、最も確率の高い感覚定義を選択することを提案する。
論文 参考訳(メタデータ) (2020-09-24T16:37:04Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Deep learning models for representing out-of-vocabulary words [1.4502611532302039]
本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
論文 参考訳(メタデータ) (2020-07-14T19:31:25Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。