論文の概要: BBPOS: BERT-based Part-of-Speech Tagging for Uzbek
- arxiv url: http://arxiv.org/abs/2501.10107v1
- Date: Fri, 17 Jan 2025 10:50:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 14:00:48.630682
- Title: BBPOS: BERT-based Part-of-Speech Tagging for Uzbek
- Title(参考訳): BBPOS: BERTベースのウズベクの音声タグ
- Authors: Latofat Bobojonova, Arofat Akhundjanova, Phil Ostheimer, Sophie Fellenz,
- Abstract要約: 本稿では,未検証の単言語 Uzbek BERT モデルについて,POS タグ付けタスク上で評価することにより,低リソースな Uzbek 言語に対する NLP 研究を進展させる。
我々の微調整モデルでは平均91%の精度が得られ、ベースラインの多言語BERTやルールベースのタグよりも優れています。
- 参考スコア(独自算出の注目度): 1.8749305679160366
- License:
- Abstract: This paper advances NLP research for the low-resource Uzbek language by evaluating two previously untested monolingual Uzbek BERT models on the part-of-speech (POS) tagging task and introducing the first publicly available UPOS-tagged benchmark dataset for Uzbek. Our fine-tuned models achieve 91% average accuracy, outperforming the baseline multi-lingual BERT as well as the rule-based tagger. Notably, these models capture intermediate POS changes through affixes and demonstrate context sensitivity, unlike existing rule-based taggers.
- Abstract(参考訳): 本稿では、未検証の単言語Uzbek BERTモデル2つを音声タグ付けタスク(POS)上で評価し、Uzbek 用の UPOS タグ付きベンチマークデータセットを初めて公開することにより、低リソースな Uzbek 言語に対する NLP 研究を前進させる。
我々の微調整モデルでは平均91%の精度が得られ、ベースラインの多言語BERTやルールベースのタグよりも優れています。
特に、これらのモデルは、既存のルールベースのタグとは異なり、アフィクスを通じて中間POS変更をキャプチャし、コンテキスト感度を示す。
関連論文リスト
- Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - The futility of STILTs for the classification of lexical borrowings in
Spanish [0.0]
STILTは、多言語モデルの直接微調整よりも改善していない。
少数の言語のサブセットでトレーニングされた多言語モデルは、多言語BERTよりも合理的に優れているが、与えられたデータセットに対する多言語RoBERTaほど良くない。
論文 参考訳(メタデータ) (2021-09-17T15:32:02Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Discriminative Self-training for Punctuation Prediction [5.398944179152948]
自動音声認識(ASR)出力トランスクリプトの発音予測は、ASRトランスクリプトの可読性向上に重要な役割を果たします。
句読点予測の性能向上には,大量のラベル付き音声書き起こしが必要となることが多い。
重み付き損失と識別ラベル平滑化を用いた識別的自己学習手法を提案する。
論文 参考訳(メタデータ) (2021-04-21T03:32:47Z) - Fine-tuning Pretrained Multilingual BERT Model for Indonesian
Aspect-based Sentiment Analysis [0.0]
CNNとXGBoostを用いて,ホテルドメインにおけるインドネシアのレビューに対するAspect-based Sentiment Analysis (ABSA) に関する研究を行った。
本稿では,インドネシアのレビューデータセットにおいて,最も先進的な言語表現モデルであるBERTをABSAに組み込むことを目的としている。
論文 参考訳(メタデータ) (2021-03-05T15:05:51Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。