論文の概要: Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource
Languages
- arxiv url: http://arxiv.org/abs/2004.13305v1
- Date: Tue, 28 Apr 2020 05:14:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:01:12.153720
- Title: Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource
Languages
- Title(参考訳): 極低リソース言語で低パフォーマンスなPOSタガーを弱修正
- Authors: Katharina Kann, Oph\'elie Lacroix, Anders S{\o}gaard
- Abstract要約: 我々は15の真の低リソース言語からなるタイプ的多種多様な集合に対して、最先端のPOSタグを訓練し評価する。
我々の結果は、本当に低リソース言語に対するPOSタグ付けに対する新しい異なるアプローチの必要性を強調します。
- 参考スコア(独自算出の注目度): 20.6788155478186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-of-speech (POS) taggers for low-resource languages which are exclusively
based on various forms of weak supervision - e.g., cross-lingual transfer,
type-level supervision, or a combination thereof - have been reported to
perform almost as well as supervised ones. However, weakly supervised POS
taggers are commonly only evaluated on languages that are very different from
truly low-resource languages, and the taggers use sources of information, like
high-coverage and almost error-free dictionaries, which are likely not
available for resource-poor languages. We train and evaluate state-of-the-art
weakly supervised POS taggers for a typologically diverse set of 15 truly
low-resource languages. On these languages, given a realistic amount of
resources, even our best model gets only less than half of the words right. Our
results highlight the need for new and different approaches to POS tagging for
truly low-resource languages.
- Abstract(参考訳): 言語間移動、型レベルの監督、あるいはその組み合わせなど、様々な種類の弱監督に基づく低リソース言語のための部分音声(POS)タグが、ほぼ同様に機能することが報告されている。
しかし、弱い教師付きPOSタグは通常、真の低リソース言語と非常に異なる言語でのみ評価され、タグは、高カバレッジやほとんどエラーのない辞書のような情報のソースを使用する。
我々は15の真の低リソース言語に対して,最先端に教師付きPOSタグを訓練し,評価する。
これらの言語では、現実的な量のリソースを考えると、最良のモデルでさえ、単語の半分以下しか得られません。
我々の結果は、本当に低リソース言語に対するPOSタグ付けに対する新しい異なるアプローチの必要性を強調します。
関連論文リスト
- LowREm: A Repository of Word Embeddings for 87 Low-Resource Languages Enhanced with Multilingual Graph Knowledge [0.6317163123651698]
87の低リソース言語に対する静的な埋め込みのリポジトリであるLowREmを紹介します。
また,多言語グラフ知識を統合することで,GloVeベースの埋め込みを強化する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-26T18:10:26Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Multilingual Word Embeddings for Low-Resource Languages using Anchors
and a Chain of Related Languages [54.832599498774464]
我々は,言語連鎖に基づく新しいアプローチにより,多言語単語埋め込み(MWE)を構築することを提案する。
リソースの豊富なソースから始めて、ターゲットに到達するまで各言語をチェーンに順次追加することで、MWEを一度に1つの言語で構築します。
本手法は,4つの低リソース(5Mトークン)と4つの中程度の低リソース(50M)ターゲット言語を含む4つの言語ファミリーを対象としたバイリンガルレキシコン誘導法について検討した。
論文 参考訳(メタデータ) (2023-11-21T09:59:29Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Refining Low-Resource Unsupervised Translation by Language
Disentanglement of Multilingual Model [16.872474334479026]
本稿では,事前訓練された多言語UTTモデルから言語を切り離すための簡単な改良手法を提案する。
我々の手法は、ネパール語、シンハラ語、グジャラート語、ラトビア語、エストニア語、カザフ語への英語の完全な教師なし翻訳作業における芸術の状態を達成している。
論文 参考訳(メタデータ) (2022-05-31T05:14:50Z) - How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages [1.7625363344837164]
シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
論文 参考訳(メタデータ) (2021-05-30T12:09:59Z) - When Word Embeddings Become Endangered [0.685316573653194]
本稿では,異なる資源豊富な言語の単語埋め込みとリソース不足言語の翻訳辞書を用いて,絶滅危惧言語の単語埋め込みを構築する手法を提案する。
言語間の単語埋め込みと感情分析モデルはすべて、簡単に使えるPythonライブラリを通じて公開されています。
論文 参考訳(メタデータ) (2021-03-24T15:42:53Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。