論文の概要: Deep learning models for representing out-of-vocabulary words
- arxiv url: http://arxiv.org/abs/2007.07318v2
- Date: Tue, 28 Jul 2020 14:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:40:07.785952
- Title: Deep learning models for representing out-of-vocabulary words
- Title(参考訳): 語彙外表現のためのディープラーニングモデル
- Authors: Johannes V. Lochter, Renato M. Silva, Tiago A. Almeida
- Abstract要約: 本稿では,語彙外(OOV)単語を表現するためのディープラーニングモデルの性能評価を行う。
OOV単語を扱うための最善のテクニックはタスクごとに異なるが、OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickは、有望な結果を得た。
- 参考スコア(独自算出の注目度): 1.4502611532302039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Communication has become increasingly dynamic with the popularization of
social networks and applications that allow people to express themselves and
communicate instantly. In this scenario, distributed representation models have
their quality impacted by new words that appear frequently or that are derived
from spelling errors. These words that are unknown by the models, known as
out-of-vocabulary (OOV) words, need to be properly handled to not degrade the
quality of the natural language processing (NLP) applications, which depend on
the appropriate vector representation of the texts. To better understand this
problem and finding the best techniques to handle OOV words, in this study, we
present a comprehensive performance evaluation of deep learning models for
representing OOV words. We performed an intrinsic evaluation using a benchmark
dataset and an extrinsic evaluation using different NLP tasks: text
categorization, named entity recognition, and part-of-speech tagging. Although
the results indicated that the best technique for handling OOV words is
different for each task, Comick, a deep learning method that infers the
embedding based on the context and the morphological structure of the OOV word,
obtained promising results.
- Abstract(参考訳): コミュニケーションは、人々が自分自身を表現し、即座にコミュニケーションできるソーシャルネットワークやアプリケーションの普及によって、ますますダイナミックになっている。
このシナリオでは、分散表現モデルは、頻繁に現れるか、スペルエラーに由来する新しい単語によって品質が影響を受ける。
oov(out-of-vocabulary)と呼ばれるモデルによって未知のこれらの単語は、テキストの適切なベクトル表現に依存する自然言語処理(nlp)アプリケーションの品質を損なわないよう適切に処理する必要がある。
この問題をよりよく理解し,oovワードを扱うための最善の技術を見出すため,本研究では,oovワードを表現するためのディープラーニングモデルの総合的性能評価を提案する。
我々は,テキスト分類,名前付きエンティティ認識,パート・オブ・音声タグ付けなど,異なるNLPタスクを用いて,ベンチマークデータセットと外部評価を行った。
その結果,OOV単語の処理に最適な手法が各タスクごとに異なることが明らかとなったが,OV単語のコンテキストと形態構造に基づいて埋め込みを推論する深層学習手法であるComickが有望な結果を得た。
関連論文リスト
- Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Context-based out-of-vocabulary word recovery for ASR systems in Indian
languages [5.930734371401316]
本稿では,文脈に基づくOOV回収の性能向上のための後処理手法を提案する。
提案するコスト関数の有効性は,単語レベルと文レベルの両方で評価する。
論文 参考訳(メタデータ) (2022-06-09T06:51:31Z) - Seed Words Based Data Selection for Language Model Adaptation [11.59717828860318]
本稿では,テキストコーパスから文を自動的に選択する手法を提案する。
ベースラインモデルの語彙は拡張・調整され、OOVレートが低下する。
異なる測定値(OOVレート, WER, 精度, リコール)を用いて, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2021-07-20T12:08:27Z) - A Comparison of Methods for OOV-word Recognition on a New Public Dataset [0.0]
我々はCommonVoiceデータセットを用いて、語彙外比の高い言語のためのテストセットを作成することを提案する。
次に、ハイブリッドASRシステムのコンテキストにおいて、OOVの認識において、サブワードモデルがどの程度優れているかを評価する。
OOV単語をよりよく認識するために,サブワードベースの言語モデルを修正する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-07-16T19:39:30Z) - Training Bi-Encoders for Word Sense Disambiguation [4.149972584899897]
Word Sense Disambiguationの最先端のアプローチは、これらのモデルからの事前訓練された埋め込みとともに語彙情報を活用し、標準評価ベンチマークにおける人間間のアノテータ合意に匹敵する結果を得る。
我々はさらに,多段階事前学習および微調整パイプラインを通じて,Word Sense Disambiguationにおける技術の現状について述べる。
論文 参考訳(メタデータ) (2021-05-21T06:06:03Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。