論文の概要: Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios?
- arxiv url: http://arxiv.org/abs/2410.10576v1
- Date: Mon, 14 Oct 2024 14:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 20:45:18.316443
- Title: Recipe for Zero-shot POS Tagging: Is It Useful in Realistic Scenarios?
- Title(参考訳): Zero-shot POS タグ作成の準備 - 現実的なシナリオで有用か?
- Authors: Zeno Vandenbulcke, Lukas Vermeire, Miryam de Lhoneux,
- Abstract要約: 本稿では、限られたデータを持つ言語に対するPOSタグ付けに焦点を当てる。
対象言語からのラベル付きトレーニングデータを用いることなく,POSタグ付けモデルのトレーニングに好適なデータセットの特徴を特定する。
- 参考スコア(独自算出の注目度): 4.959459199361905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: POS tagging plays a fundamental role in numerous applications. While POS taggers are highly accurate in well-resourced settings, they lag behind in cases of limited or missing training data. This paper focuses on POS tagging for languages with limited data. We seek to identify the characteristics of datasets that make them favourable for training POS tagging models without using any labelled training data from the target language. This is a zero-shot approach. We compare the accuracies of a multilingual large language model (mBERT) fine-tuned on one or more languages related to the target language. Additionally, we compare these results with models trained directly on the target language itself. We do this for three target low-resource languages. Our research highlights the importance of accurate dataset selection for effective zero-shot POS tagging. Particularly, a strong linguistic relationship and high-quality datasets ensure optimal results. For extremely low-resource languages, zero-shot models prove to be a viable option.
- Abstract(参考訳): POSタグは多くのアプリケーションにおいて基本的な役割を果たす。
POSタグは、十分にソースされた設定では極めて正確だが、限られたトレーニングデータや不足したトレーニングデータでは遅れている。
本稿では、限られたデータを持つ言語に対するPOSタグ付けに焦点を当てる。
対象言語からのラベル付きトレーニングデータを用いることなく,POSタグ付けモデルのトレーニングに好適なデータセットの特徴を特定する。
これはゼロショットアプローチです。
対象言語に関連する1つ以上の言語で微調整された多言語大言語モデル(mBERT)の精度を比較した。
さらに、これらの結果とターゲット言語自体を直接訓練したモデルを比較する。
ターゲットとする低リソース言語は3つです。
本研究は、効率的なゼロショットPOSタグ付けのための正確なデータセット選択の重要性を強調した。
特に、強い言語的関係と高品質なデータセットによって最適な結果が得られる。
極端に低リソースな言語では、ゼロショットモデルが有効な選択肢であることが証明されている。
関連論文リスト
- Zero Resource Cross-Lingual Part Of Speech Tagging [0.0]
ゼロリソース設定での音声タグ付けの一部は、ラベル付きトレーニングデータが利用できない場合、低リソース言語にとって効果的なアプローチである。
本研究では,日本語とフランス語,ドイツ語,スペイン語による翻訳学習設定を音声タグ付けのためのターゲット言語として評価した。
論文 参考訳(メタデータ) (2024-01-11T08:12:47Z) - DeMuX: Data-efficient Multilingual Learning [57.37123046817781]
DEMUXは、大量の重複しない多言語データからラベルを付けるための正確なデータポイントを規定するフレームワークである。
エンドツーエンドのフレームワークは言語に依存しず、モデル表現を記述し、多言語的ターゲット設定をサポートしています。
論文 参考訳(メタデータ) (2023-11-10T20:09:08Z) - How to Solve Few-Shot Abusive Content Detection Using the Data We Actually Have [58.23138483086277]
この作業では、すでに持っているデータセットを活用し、虐待的な言語検出に関連する幅広いタスクをカバーしています。
私たちのゴールは、ターゲットドメインのトレーニング例を少しだけ使用して、新しいターゲットラベルセットや/または言語のために、安価にモデルを構築することです。
実験の結果、すでに存在するデータセットと、対象タスクのほんの数ショットしか使用していないモデルの性能が、モノリンガル言語と言語間で改善されていることがわかった。
論文 参考訳(メタデータ) (2023-05-23T14:04:12Z) - MasakhaPOS: Part-of-Speech Tagging for Typologically Diverse African
Languages [7.86385861664505]
原型的に多様性のある20のアフリカ諸言語を対象としたPOSデータセットとして最大であるMashokhaPOSを提案する。
本稿では,これらの言語に対して,UD(UniversalDependency)ガイドラインを用いてPOSを注釈付けする際の課題について論じる。
論文 参考訳(メタデータ) (2023-05-23T12:15:33Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Self-Training Pre-Trained Language Models for Zero- and Few-Shot
Multi-Dialectal Arabic Sequence Labeling [7.310390479801139]
データスカース変種の性能を改善するため、ゼロおよび少数ショットシナリオで事前訓練された言語モデル。
我々の研究は、MSAリソースのみを活用するDAモデルを開発する機会を開く。
論文 参考訳(メタデータ) (2021-01-12T21:29:30Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。