論文の概要: Cross-Domain Evaluation of POS Taggers: From Wall Street Journal to
Fandom Wiki
- arxiv url: http://arxiv.org/abs/2304.13989v1
- Date: Thu, 27 Apr 2023 07:24:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 14:17:29.301149
- Title: Cross-Domain Evaluation of POS Taggers: From Wall Street Journal to
Fandom Wiki
- Title(参考訳): POSタガーのクロスドメイン評価:ウォールストリートジャーナルからファンダムウィキへ
- Authors: Kia Kirstein Hansen, Rob van der Goot
- Abstract要約: 我々はPen TreebankのWall Street Journalセクションで訓練された2つのPOSタグのクロスドメイン性能を評価した。
分析の結果,トレーニング中に見られたトークンのパフォーマンスは,ドメイン内のパフォーマンスとほぼ同等であることがわかった。
両方のタグガーは適切な名詞と矛盾しない資本化と戦っている。
- 参考スコア(独自算出の注目度): 8.875272663730868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Wall Street Journal section of the Penn Treebank has been the de-facto
standard for evaluating POS taggers for a long time, and accuracies over 97\%
have been reported. However, less is known about out-of-domain tagger
performance, especially with fine-grained label sets. Using data from Elder
Scrolls Fandom, a wiki about the \textit{Elder Scrolls} video game universe, we
create a modest dataset for qualitatively evaluating the cross-domain
performance of two POS taggers: the Stanford tagger (Toutanova et al. 2003) and
Bilty (Plank et al. 2016), both trained on WSJ. Our analyses show that
performance on tokens seen during training is almost as good as in-domain
performance, but accuracy on unknown tokens decreases from 90.37% to 78.37%
(Stanford) and 87.84\% to 80.41\% (Bilty) across domains. Both taggers struggle
with proper nouns and inconsistent capitalization.
- Abstract(参考訳): Penn Treebank の Wall Street Journal のセクションは POS タグを長い間評価するためのデファクトスタンダードであり、97 % 以上の精度が報告されている。
しかし、特にきめ細かいラベルセットでは、ドメイン外タグのパフォーマンスについてはあまり知られていない。
the stanford tagger (toutanova et al. 2003) と bilty (plank et al. 2016) という2つのposタグのクロスドメインパフォーマンスを定性的に評価するための控えめなデータセットを作成しました。
分析の結果、トレーニング中に見られたトークンのパフォーマンスはドメイン内のパフォーマンスとほぼ同等であるが、未知のトークンの精度は90.37%から78.37%(スタンフォード)、87.84\%(ビルティ)に低下した。
両方のタグガーは適切な名詞と矛盾しない資本化と戦っている。
関連論文リスト
- Revisiting Supertagging for Faster HPSG Pasing [13.497404066306501]
英語文法に基づく木バンクを訓練した新しいスーパータガーを提案する。
最適なタグが解析速度と精度に与える影響を検証した。
論文 参考訳(メタデータ) (2023-09-14T10:49:16Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - An Experimental Investigation of Part-Of-Speech Taggers for Vietnamese [4.243926243206826]
自然言語処理(NLP)におけるPOSタグ付けの役割
我々は、広く使われている2つのツールキットであるClearNLPとStanford POS Taggerの技術を活用し、ベトナム向けの2つの新しいPOSタグを開発した。
論文 参考訳(メタデータ) (2022-06-14T17:07:28Z) - Reducing Target Group Bias in Hate Speech Detectors [56.94616390740415]
大規模な公開データセットでトレーニングされたテキスト分類モデルは、いくつかの保護されたグループで大幅に性能が低下する可能性がある。
本稿では,トークンレベルのヘイトセンスの曖昧さを実現し,トークンのヘイトセンスの表現を検知に利用することを提案する。
論文 参考訳(メタデータ) (2021-12-07T17:49:34Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Span Pointer Networks for Non-Autoregressive Task-Oriented Semantic
Parsing [55.97957664897004]
seq2seq、非自動回帰的、タスク指向を構築するための効果的なレシピは、3つのステップで発話とセマンティックフレームをマッピングする。
これらのモデルは通常、長さ予測によってボトルネックとなる。
本研究では,デコードタスクをテキスト生成からスパン予測へシフトさせる非自己回帰手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T07:02:35Z) - What Taggers Fail to Learn, Parsers Need the Most [0.38073142980733]
本報告では,ゴールド標準タグの使用が解析性能に大きく寄与する理由を評価するために,ニューラルUPOSタグの誤り解析を行う。
我々は、単語の種類について暗黙的に学習する神経依存度と、タグが予測されたタグを用いて最小の影響を説明するためのエラーとの関連性を評価する。
論文 参考訳(メタデータ) (2021-04-02T15:04:56Z) - Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised
Pre-Training [67.71228426496013]
事前トレーニング中にターゲットドメインデータを使用することで,さまざまなセットアップで大幅なパフォーマンス向上が期待できる。
複数のドメインで事前トレーニングを行うことで、トレーニング中に見られないドメインのパフォーマンスの一般化が向上します。
論文 参考訳(メタデータ) (2021-04-02T12:53:15Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z) - Is POS Tagging Necessary or Even Helpful for Neural Dependency Parsing? [22.93722845643562]
Stackのジョイントフレームワークを使用する場合,POSタグ付けによって解析性能が大幅に向上することを示す。
解析木よりもPOSタグをアノテートする方がずっと安いことを考えると,大規模な異種POSタグデータの利用も検討する。
論文 参考訳(メタデータ) (2020-03-06T13:47:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。