論文の概要: Cross-Register Projection for Headline Part of Speech Tagging
- arxiv url: http://arxiv.org/abs/2109.07483v1
- Date: Wed, 15 Sep 2021 18:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-18 10:09:43.855178
- Title: Cross-Register Projection for Headline Part of Speech Tagging
- Title(参考訳): 音声タグの見出し部分に対するクロスレジストレーション
- Authors: Adrian Benton, Hanyang Li, Igor Malioutov
- Abstract要約: ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
- 参考スコア(独自算出の注目度): 3.5455943749695034
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Part of speech (POS) tagging is a familiar NLP task. State of the art taggers
routinely achieve token-level accuracies of over 97% on news body text,
evidence that the problem is well understood. However, the register of English
news headlines, "headlinese", is very different from the register of long-form
text, causing POS tagging models to underperform on headlines. In this work, we
automatically annotate news headlines with POS tags by projecting predicted
tags from corresponding sentences in news bodies. We train a multi-domain POS
tagger on both long-form and headline text and show that joint training on both
registers improves over training on just one or naively concatenating training
sets. We evaluate on a newly-annotated corpus of over 5,248 English news
headlines from the Google sentence compression corpus, and show that our model
yields a 23% relative error reduction per token and 19% per headline. In
addition, we demonstrate that better headline POS tags can improve the
performance of a syntax-based open information extraction system. We make POSH,
the POS-tagged Headline corpus, available to encourage research in improved NLP
models for news headlines.
- Abstract(参考訳): 音声(POS)タグ付けは慣れ親しんだNLPタスクである。
state of the art taggersは、ニュース本体のテキストで97%以上のトークンレベルの精度を定期的に達成している。
しかし、英語のニュース見出しの登録簿「headlinese」は、長文のテキストの登録とは大きく異なり、posタグモデルが見出しに過小評価される原因となっている。
本研究では,関連する文から予測タグを投影することで,ニュース見出しにposタグを付与する。
我々は,複数ドメインのposタグを長文と見出し文の両方で訓練し,両レジスタの合同訓練が1つまたはネイティブに連結されたトレーニングセットのトレーニングよりも優れていることを示す。
Google文圧縮コーパスから5,248以上の英ニュース見出しを新たに注釈付けしたコーパスで評価し,本モデルがトークンあたりの相対誤差を23%,見出しあたり19%減らすことを示す。
さらに,より優れた見出しPOSタグが,構文に基づくオープン情報抽出システムの性能を向上させることを示す。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
関連論文リスト
- Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial
Persian Part of Speech Tagging [0.9843385481559193]
本稿では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。
コーパスには、Telegram、Twitter、Instagramで政治的、社会的、商業などの様々なドメインから収集された公式テキストと非公式テキストが含まれている。
論文 参考訳(メタデータ) (2023-10-01T05:06:33Z) - Prompt-and-Align: Prompt-Based Social Alignment for Few-Shot Fake News
Detection [50.07850264495737]
プロンプト・アンド・アライン(Prompt-and-Align、P&A)は、数発のフェイクニュース検出のための新しいプロンプトベースのパラダイムである。
我々はP&Aが、数発のフェイクニュース検出性能をかなりのマージンで新たな最先端に設定していることを示す。
論文 参考訳(メタデータ) (2023-09-28T13:19:43Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - Weakly Supervised Headline Dependency Parsing [20.246696104447985]
英語のニュースの見出しは1930年代から文献で記録されている独特の統語的特性を持つ登録簿を形成している。
このギャップを埋めるために、Universal Dependencies Syntactic dependency Treeの最初のニュースヘッドラインコーパスを提供する。
論文 参考訳(メタデータ) (2023-01-25T01:00:16Z) - Graph-Based Multilingual Label Propagation for Low-Resource
Part-of-Speech Tagging [0.44798341036073835]
Part-of-Speech (POS) タグはNLPパイプラインの重要なコンポーネントである。
ローリソース言語の多くは、トレーニング用のラベル付きデータを欠いている。
本稿では,複数の高リソースソースから低リソースターゲット言語へラベルを転送する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-18T13:26:09Z) - Sentiment-Aware Word and Sentence Level Pre-training for Sentiment
Analysis [64.70116276295609]
SentiWSPは、WordレベルとSentenceレベルの事前トレーニングタスクを組み合わせた、Sentiment対応の事前トレーニング言語モデルである。
SentiWSPは、様々な文レベルおよびアスペクトレベルの感情分類ベンチマーク上で、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T12:25:29Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。