論文の概要: Annotating Norwegian Language Varieties on Twitter for Part-of-Speech
- arxiv url: http://arxiv.org/abs/2210.06150v1
- Date: Wed, 12 Oct 2022 12:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:12:55.635576
- Title: Annotating Norwegian Language Varieties on Twitter for Part-of-Speech
- Title(参考訳): ノルウェー語でTwitterに注釈をつける
- Authors: Petter M{\ae}hlum, Andre K{\aa}sen, Samia Touileb, Jeremy Barnes
- Abstract要約: POSタグを付加したノルウェーのTwitterデータセットを提案する。
このデータセットに対して評価すると,UD(Universal Dependency)データに基づいてトレーニングしたモデルの性能が低下することを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵するものであることもわかっています。
- 参考スコア(独自算出の注目度): 14.031720101413557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Norwegian Twitter data poses an interesting challenge for Natural Language
Processing (NLP) tasks. These texts are difficult for models trained on
standardized text in one of the two Norwegian written forms (Bokm{\aa}l and
Nynorsk), as they contain both the typical variation of social media text, as
well as a large amount of dialectal variety. In this paper we present a novel
Norwegian Twitter dataset annotated with POS-tags. We show that models trained
on Universal Dependency (UD) data perform worse when evaluated against this
dataset, and that models trained on Bokm{\aa}l generally perform better than
those trained on Nynorsk. We also see that performance on dialectal tweets is
comparable to the written standards for some models. Finally we perform a
detailed analysis of the errors that models commonly make on this data.
- Abstract(参考訳): ノルウェーのTwitterデータは自然言語処理(NLP)タスクに興味深い課題をもたらしている。
これらのテキストは、2つのノルウェー文字形式(Bokm{\aa}lとNynorsk)のうちの1つで標準化されたテキストで訓練されたモデルにとって困難である。
本稿では,POSタグを付加したノルウェーのTwitterデータセットを提案する。
我々は,このデータセットに対して評価された場合,ユニバーサル・依存性(ud)データに基づいてトレーニングされたモデルがより良く動作し,bokm{\aa}lでトレーニングされたモデルがnynorskでトレーニングされたモデルよりも一般的に優れていることを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵する。
最後に、モデルがこのデータで一般的に行うエラーの詳細な分析を行う。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Boosting Norwegian Automatic Speech Recognition [0.0]
本稿では,ノルウェーの2つの公用語であるボクマール語とニノルスク語に対する自動音声認識(ASR)モデルについて述べる。
複数のノルウェー語音声データセットにおける様々な大きさのモデルと事前学習アプローチの性能を比較した。
我々は,ノルウェー議会音声コーパス (NPSC) の言語誤り率 (WER) を17.10%から7.60%に改善し,ボクマールでは5.81%,ニノルスクでは11.54%とした。
論文 参考訳(メタデータ) (2023-07-04T12:05:15Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - Thutmose Tagger: Single-pass neural model for Inverse Text Normalization [76.87664008338317]
逆テキスト正規化(ITN)は自動音声認識において重要な後処理ステップである。
本稿では,ITN例の粒度アライメントに基づくデータセット作成手法を提案する。
タグと入力語との1対1対応により、モデルの予測の解釈性が向上する。
論文 参考訳(メタデータ) (2022-07-29T20:39:02Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z) - NorDial: A Preliminary Corpus of Written Norwegian Dialect Use [4.211128681972148]
ツイートの小さなコーパスを収集し、手動でBokmaal、Nynorsk、方言、またはミックスとしてアノテートします。
本研究は,最先端モデルを用いた予備実験と,このコーパスを将来拡張するためのデータの分析を行う。
論文 参考訳(メタデータ) (2021-04-11T10:56:53Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - e-SNLI-VE: Corrected Visual-Textual Entailment with Natural Language
Explanations [87.71914254873857]
SNLI-VEのエラー率が最も高いクラスを補正するためのデータ収集手法を提案する。
第3に,人間による自然言語の説明をSNLI-VEに追加するe-SNLI-VEを紹介する。
トレーニング時にこれらの説明から学習するモデルをトレーニングし、テスト時にそのような説明を出力します。
論文 参考訳(メタデータ) (2020-04-07T23:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。