論文の概要: Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction
- arxiv url: http://arxiv.org/abs/2008.01377v4
- Date: Tue, 08 Oct 2024 09:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:30:40.938819
- Title: Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction
- Title(参考訳): 設定値予測による歴史的コーパスの信頼度の高いパート・オブ・音声タギング
- Authors: Stefan Heid, Marcel Wever, Eyke Hüllermeier,
- Abstract要約: 設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
- 参考スコア(独自算出の注目度): 21.67895423776014
- License:
- Abstract: Syntactic annotation of corpora in the form of part-of-speech (POS) tags is a key requirement for both linguistic research and subsequent automated natural language processing (NLP) tasks. This problem is commonly tackled using machine learning methods, i.e., by training a POS tagger on a sufficiently large corpus of labeled data. While the problem of POS tagging can essentially be considered as solved for modern languages, historical corpora turn out to be much more difficult, especially due to the lack of native speakers and sparsity of training data. Moreover, most texts have no sentences as we know them today, nor a common orthography. These irregularities render the task of automated POS tagging more difficult and error-prone. Under these circumstances, instead of forcing the POS tagger to predict and commit to a single tag, it should be enabled to express its uncertainty. In this paper, we consider POS tagging within the framework of set-valued prediction, which allows the POS tagger to express its uncertainty via predicting a set of candidate POS tags instead of guessing a single one. The goal is to guarantee a high confidence that the correct POS tag is included while keeping the number of candidates small. In our experimental study, we find that extending state-of-the-art POS taggers to set-valued prediction yields more precise and robust taggings, especially for unknown words, i.e., words not occurring in the training data.
- Abstract(参考訳): コーパスの統語的アノテーションは、言語研究とその後の自然言語処理(NLP)タスクにおいて重要な要件である。
この問題は、マシンラーニング手法、すなわち、十分に大きなラベル付きデータのコーパス上でPOSタグをトレーニングすることで、一般的に取り組まれる。
POSタグの問題は、現代言語では本質的に解決できるが、歴史的コーパスは、特にネイティブスピーカーの欠如と訓練データの分散のため、はるかに困難であることが判明した。
さらに、ほとんどのテキストは、私たちが現在知っているような文も、共通の正書法も持っていない。
これらの不規則さはPOSの自動タグ付けのタスクをより難しく、エラーを起こします。
このような状況下では、POSタグを強制して単一のタグを予測してコミットするのではなく、その不確実性を表現できるようにすべきである。
本稿では,設定値予測の枠組み内でPOSタグを考慮し,POSタグを推測する代わりに,候補となるPOSタグのセットを予測することで,POSタグが不確実性を表現できるようにする。
目標は、候補数を小さく保ちながら、正しいPOSタグが含まれているという高い信頼を保証することである。
実験の結果,最先端のPOSタグを設定値の予測に拡張することで,特に未知の単語,すなわちトレーニングデータに存在しない単語に対して,より正確で堅牢なタグ付けが得られることがわかった。
関連論文リスト
- On the Importance of Signer Overlap for Sign Language Detection [65.26091369630547]
我々は,手話検出のための現在のベンチマークデータセットは,一般化が不十分な過度に肯定的な結果であると主張している。
我々は、現在の符号検出ベンチマークデータセットに対するシグナ重なりの影響を詳細に分析することでこれを定量化する。
我々は、重複のない新しいデータセット分割を提案し、より現実的なパフォーマンス評価を可能にします。
論文 参考訳(メタデータ) (2023-03-19T22:15:05Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - What Taggers Fail to Learn, Parsers Need the Most [0.38073142980733]
本報告では,ゴールド標準タグの使用が解析性能に大きく寄与する理由を評価するために,ニューラルUPOSタグの誤り解析を行う。
我々は、単語の種類について暗黙的に学習する神経依存度と、タグが予測されたタグを用いて最小の影響を説明するためのエラーとの関連性を評価する。
論文 参考訳(メタデータ) (2021-04-02T15:04:56Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z) - Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文 参考訳(メタデータ) (2020-01-10T06:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。