論文の概要: Graph-Based Multilingual Label Propagation for Low-Resource
Part-of-Speech Tagging
- arxiv url: http://arxiv.org/abs/2210.09840v1
- Date: Tue, 18 Oct 2022 13:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:50:29.486440
- Title: Graph-Based Multilingual Label Propagation for Low-Resource
Part-of-Speech Tagging
- Title(参考訳): 低リソースパート・オブ・スパイチ・タギングのためのグラフベース多言語ラベル伝搬
- Authors: Ayyoob Imani, Silvia Severini, Masoud Jalili Sabet, Fran\c{c}ois Yvon,
Hinrich Sch\"utze
- Abstract要約: Part-of-Speech (POS) タグはNLPパイプラインの重要なコンポーネントである。
ローリソース言語の多くは、トレーニング用のラベル付きデータを欠いている。
本稿では,複数の高リソースソースから低リソースターゲット言語へラベルを転送する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.44798341036073835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-of-Speech (POS) tagging is an important component of the NLP pipeline,
but many low-resource languages lack labeled data for training. An established
method for training a POS tagger in such a scenario is to create a labeled
training set by transferring from high-resource languages. In this paper, we
propose a novel method for transferring labels from multiple high-resource
source to low-resource target languages. We formalize POS tag projection as
graph-based label propagation. Given translations of a sentence in multiple
languages, we create a graph with words as nodes and alignment links as edges
by aligning words for all language pairs. We then propagate node labels from
source to target using a Graph Neural Network augmented with transformer
layers. We show that our propagation creates training sets that allow us to
train POS taggers for a diverse set of languages. When combined with enhanced
contextualized embeddings, our method achieves a new state-of-the-art for
unsupervised POS tagging of low-resource languages.
- Abstract(参考訳): POS(Part-of-Speech)タグはNLPパイプラインの重要なコンポーネントであるが、多くの低リソース言語ではトレーニング用のラベル付きデータがない。
このようなシナリオでPOSタグをトレーニングするための確立された方法は、高リソース言語からの転送によってラベル付きトレーニングセットを作成することである。
本稿では,複数の高リソースソースから低リソースターゲット言語へラベルを転送する新しい手法を提案する。
POSタグプロジェクションをグラフベースのラベル伝搬として定式化する。
複数の言語で文を翻訳すると、単語をノードとして、アライメントリンクをエッジとして、すべての言語ペアの単語をアライメントしてグラフを作成する。
次に、トランス層を付加したグラフニューラルネットワークを用いて、ソースからターゲットへのノードラベルの伝搬を行う。
我々は,多様な言語に対してPOSタグをトレーニングするためのトレーニングセットを作成していることを示す。
拡張文脈埋め込みと組み合わせることで、低リソース言語の教師なしPOSタグ付けのための新しい最先端技術を実現する。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Universal Cross-Lingual Text Classification [0.3958317527488535]
本研究は,言語横断テキスト分類における新たな視点を提案する。
我々のアプローチは、訓練中に異なる言語からの教師付きデータをブレンドして普遍的なモデルを作成することである。
主な目標は、ラベルと言語カバレッジを強化することであり、様々な言語のラベルの結合を表すラベルセットを目指している。
論文 参考訳(メタデータ) (2024-06-16T17:58:29Z) - Zero Resource Cross-Lingual Part Of Speech Tagging [0.0]
ゼロリソース設定での音声タグ付けの一部は、ラベル付きトレーニングデータが利用できない場合、低リソース言語にとって効果的なアプローチである。
本研究では,日本語とフランス語,ドイツ語,スペイン語による翻訳学習設定を音声タグ付けのためのターゲット言語として評価した。
論文 参考訳(メタデータ) (2024-01-11T08:12:47Z) - Cross-Register Projection for Headline Part of Speech Tagging [3.5455943749695034]
ロングフォームおよびヘッドラインテキストの両方でマルチドメインPOSタグをトレーニングする。
このモデルではトークン当たりの相対誤差が23%減少し,見出しあたりの19%が得られた。
我々はPOSタグ付きヘッドラインコーパスであるPOSHを作成し、ニュースの見出しのために改良されたNLPモデルの研究を奨励する。
論文 参考訳(メタデータ) (2021-09-15T18:00:02Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。