論文の概要: Yunshan Cup 2020: Overview of the Part-of-Speech Tagging Task for
Low-resourced Languages
- arxiv url: http://arxiv.org/abs/2204.02658v1
- Date: Wed, 6 Apr 2022 08:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 22:01:53.436610
- Title: Yunshan Cup 2020: Overview of the Part-of-Speech Tagging Task for
Low-resourced Languages
- Title(参考訳): Yunshan Cup 2020:低リソース言語のための音声タグタスクの概要
- Authors: Yingwen Fu and Jinyi Chen and Nankai Lin and Xixuan Huang and Xinying
Qiu and Shengyi Jiang
- Abstract要約: Yunshan Cup 2020のトラックは、音声のさまざまな方法(POS)を評価するためのフレームワークの作成に焦点を当てている。
インドネシアのデータセットは、29タグ以内のインドネシアのニュースから1万文で構成されている。
Laoデータセットは、27タグ内の8000の文で構成されている。
- 参考スコア(独自算出の注目度): 5.107836821794065
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The Yunshan Cup 2020 track focused on creating a framework for evaluating
different methods of part-of-speech (POS). There were two tasks for this track:
(1) POS tagging for the Indonesian language, and (2) POS tagging for the Lao
tagging. The Indonesian dataset is comprised of 10000 sentences from Indonesian
news within 29 tags. And the Lao dataset consists of 8000 sentences within 27
tags. 25 teams registered for the task. The methods of participants ranged from
feature-based to neural networks using either classical machine learning
techniques or ensemble methods. The best performing results achieve an accuracy
of 95.82% for Indonesian and 93.03%, showing that neural sequence labeling
models significantly outperform classic feature-based methods and rule-based
methods.
- Abstract(参考訳): yunshan cup 2020のトラックは、さまざまなpart-of-speech(pos)の方法を評価するフレームワークの作成に焦点を当てている。
このトラックには,(1)インドネシア語のPOSタグ付け,(2)ラオスのPOSタグ付けという2つのタスクがあった。
インドネシアのデータセットは、インドネシアのニュースから29タグで10000文からなる。
laoデータセットは27タグで8000文で構成されています。
25チームが登録された。
参加者の方法は、古典的な機械学習技術またはアンサンブル手法を使用して、特徴ベースからニューラルネットワークまで幅広い。
インドネシアでは95.82%、93.03%の精度を達成し、ニューラルシークエンスラベリングモデルは古典的な特徴に基づく手法やルールに基づく手法よりも大幅に優れていることを示した。
関連論文リスト
- Mavericks at NADI 2023 Shared Task: Unravelling Regional Nuances through
Dialect Identification using Transformer-based Approach [0.0]
我々は,国レベルの方言識別を扱うサブタスク1の方法論を強調した。
このタスクは、マルチクラス分類問題に対する18の方言を含むTwitterデータセット(TWT-2023)を使用する。
テストデータセットでF1スコア76.65 (11位)を達成した。
論文 参考訳(メタデータ) (2023-11-30T17:37:56Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - AsPOS: Assamese Part of Speech Tagger using Deep Learning Approach [7.252817150901275]
音声(POS)タグ付けは自然言語処理(NLP)に不可欠である
本稿では,AssameseのためのDeep Learning (DL)ベースのPOSタグを提示する。
F1スコアのタグ付け精度は86.52%に達した。
論文 参考訳(メタデータ) (2022-12-14T05:36:18Z) - Machine and Deep Learning Methods with Manual and Automatic Labelling
for News Classification in Bangla Language [0.36832029288386137]
本稿では,バングラ語におけるニュース分類のための手動ラベリングと自動ラベリングを用いたいくつかの機械学習手法を提案する。
MLアルゴリズムは、ロジスティック回帰(LR)、グラディエントDescent(SGD)、サポートベクトルマシン(SVM)、ランダムフォレスト(RF)、K-Nearest Neighbour(KNN)である。
本研究では,LDA(Latent Dirichlet Allocation)を用いた自動ラベリング手法を開発し,単一ラベルおよび多ラベル記事分類法の性能について検討する。
論文 参考訳(メタデータ) (2022-10-19T21:53:49Z) - UrduFake@FIRE2020: Shared Track on Fake News Identification in Urdu [62.6928395368204]
本稿では、ウルドゥー語における偽ニュース検出に関するFIRE 2020における最初の共有タスクの概要について述べる。
目標は、900の注釈付きニュース記事と400のニュース記事からなるデータセットを使って偽ニュースを特定することである。
データセットには、 (i) Health、 (ii) Sports、 (iii) Showbiz、 (iv) Technology、 (v) Businessの5つのドメインのニュースが含まれている。
論文 参考訳(メタデータ) (2022-07-25T03:46:51Z) - Overview of the Shared Task on Fake News Detection in Urdu at FIRE 2020 [62.6928395368204]
タスクはバイナリ分類タスクとして設定され、ゴールはリアルニュースとフェイクニュースを区別することである。
トレーニング用に900の注釈付きニュース記事とテスト用に400のニュース記事のデータセットを作成した。
6カ国(インド、中国、エジプト、ドイツ、パキスタン、イギリス)の42チームが登録された。
論文 参考訳(メタデータ) (2022-07-25T03:41:32Z) - UrduFake@FIRE2021: Shared Track on Fake News Identification in Urdu [55.41644538483948]
本研究は、ウルドゥー語で偽ニュースを検出するために、UrduFake@FIRE2021と名付けられた2番目の共有タスクを報告した。
提案システムは、様々なカウントベースの特徴に基づいており、異なる分類器とニューラルネットワークアーキテクチャを使用していた。
勾配降下(SGD)アルゴリズムは他の分類器よりも優れ、0.679Fスコアを達成した。
論文 参考訳(メタデータ) (2022-07-11T19:15:04Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - UPB at SemEval-2020 Task 9: Identifying Sentiment in Code-Mixed Social
Media Texts using Transformers and Multi-Task Learning [1.7196613099537055]
本研究チームは,SemEval-2020 Task 9のために開発したシステムについて述べる。
私たちは、ヒンディー語とスペイン語の2つのよく知られた混成言語をカバーすることを目指しています。
提案手法は, 平均F1スコアが0.6850であるヒンディー語タスクにおいて, 有望な性能を達成する。
スペイン語と英語のタスクでは、29人中17人として、平均で0.7064のF1スコアを獲得しました。
論文 参考訳(メタデータ) (2020-09-06T17:19:18Z) - SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual
Media [50.29389719723529]
本稿では,SemEval-2020 Task 10, Emphasis Selection for Written Text in Visual Media の主な成果とその結果を比較した。
この共有タスクの目的は、強調選択のための自動メソッドを設計することである。
タスクに送信されたシステムの解析は、BERTとRoBERTaが、トレーニング済みモデルの最も一般的な選択であることを示している。
論文 参考訳(メタデータ) (2020-08-07T17:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。