論文の概要: A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging
- arxiv url: http://arxiv.org/abs/2004.14312v1
- Date: Wed, 29 Apr 2020 16:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 13:51:41.958101
- Title: A Cross-Genre Ensemble Approach to Robust Reddit Part of Speech Tagging
- Title(参考訳): reddit音声タグのロバストな部分に対するクロスジェネラルアンサンブルアプローチ
- Authors: Shabnam Behzad, Amir Zeldes
- Abstract要約: 本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。
この結果から,少数のドメイン内データであっても,他のWebドメインからのデータのコントリビューションよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.609715843964263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part of speech tagging is a fundamental NLP task often regarded as solved for
high-resource languages such as English. Current state-of-the-art models have
achieved high accuracy, especially on the news domain. However, when these
models are applied to other corpora with different genres, and especially
user-generated data from the Web, we see substantial drops in performance. In
this work, we study how a state-of-the-art tagging model trained on different
genres performs on Web content from unfiltered Reddit forum discussions. More
specifically, we use data from multiple sources: OntoNotes, a large benchmark
corpus with 'well-edited' text, the English Web Treebank with 5 Web genres, and
GUM, with 7 further genres other than Reddit. We report the results when
training on different splits of the data, tested on Reddit. Our results show
that even small amounts of in-domain data can outperform the contribution of
data an order of magnitude larger coming from other Web domains. To make
progress on out-of-domain tagging, we also evaluate an ensemble approach using
multiple single-genre taggers as input features to a meta-classifier. We
present state of the art performance on tagging Reddit data, as well as error
analysis of the results of these models, and offer a typology of the most
common error types among them, broken down by training corpus.
- Abstract(参考訳): 音声タグ付けの一部は、英語などの高リソース言語でしばしば解決される、基本的なNLPタスクである。
現在の最先端モデルは特にニュース領域において高い精度を達成している。
しかし、これらのモデルが異なるジャンルの他のコーパス、特にWebからのユーザ生成データに適用されると、性能は大幅に低下する。
本研究では,異なるジャンルでトレーニングされた最先端のタグ付けモデルが,未フィルタリングRedditフォーラムの議論からWebコンテンツ上でどのように機能するかを検討する。
テキストを備えた大規模なベンチマークコーパスであるOntoNotes,5つのWebジャンルを持つ英国Web Treebank,さらに7つのジャンルを持つGUMなどです。
redditでテストしたデータの異なる分割に関するトレーニングの結果を報告する。
この結果から,少数のドメイン内データであっても,他のWebドメインから得られる桁違いのデータのコントリビューションよりも優れることがわかった。
ドメイン外タグ付けの進展には,複数の単一世代タグをメタ分類器への入力機能として使用するアンサンブルアプローチを評価する必要がある。
本稿では,Redditデータのタグ付けに関する技術パフォーマンスの状況と,これらのモデルの結果のエラー解析について述べるとともに,トレーニングコーパスによって分解された,最も一般的なエラータイプのタイプをタイプする。
関連論文リスト
- Assessing In-context Learning and Fine-tuning for Topic Classification of German Web Data [3.2771631221674333]
トピック関連コンテンツの検出をバイナリ分類タスクとしてモデル化する。
トピックごとの注釈付きデータポイントはわずか数百で、ドイツの3つのポリシーに関連するコンテンツを検出する。
論文 参考訳(メタデータ) (2024-07-23T14:31:59Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - A Curriculum Learning Approach for Multi-domain Text Classification
Using Keyword weight Ranking [17.71297141482757]
本稿では,キーワードウェイトランキングに基づくカリキュラム学習戦略を用いて,マルチドメインテキスト分類モデルの性能を向上させることを提案する。
AmazonのレビューとFDU-MTLデータセットの実験結果から,カリキュラム学習戦略は多分野テキスト分類モデルの性能を効果的に向上することが示された。
論文 参考訳(メタデータ) (2022-10-27T03:15:26Z) - Detect Hate Speech in Unseen Domains using Multi-Task Learning: A Case
Study of Political Public Figures [7.52579126252489]
複数のヘイトスピーチデータセットを同時に学習するマルチタスク学習パイプラインを提案する。
列車-テスト分割における一般化誤差を調べる際には強い結果が得られ、以前に見つからなかったデータセットで予測する場合には大幅に改善される。
PubFigsと呼ばれる新しいデータセットも収集し、アメリカ公共政治図の問題点に焦点をあてた。
論文 参考訳(メタデータ) (2022-08-22T21:13:38Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。