論文の概要: Revisiting Tri-training of Dependency Parsers
- arxiv url: http://arxiv.org/abs/2109.08122v1
- Date: Thu, 16 Sep 2021 17:19:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-17 15:19:46.371716
- Title: Revisiting Tri-training of Dependency Parsers
- Title(参考訳): 依存型パーザのトライトレーニング再考
- Authors: Joachim Wagner and Jennifer Foster
- Abstract要約: 依存関係解析のタスクにおいて,三者学習と事前学習による単語埋め込みという2つの半教師あり学習手法を比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの利用が効果的であることがわかったが、この2つのアプローチはうまく組み合わせることができる。
- 参考スコア(独自算出の注目度): 10.977756226111348
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We compare two orthogonal semi-supervised learning techniques, namely
tri-training and pretrained word embeddings, in the task of dependency parsing.
We explore language-specific FastText and ELMo embeddings and multilingual BERT
embeddings. We focus on a low resource scenario as semi-supervised learning can
be expected to have the most impact here. Based on treebank size and available
ELMo models, we select Hungarian, Uyghur (a zero-shot language for mBERT) and
Vietnamese. Furthermore, we include English in a simulated low-resource
setting. We find that pretrained word embeddings make more effective use of
unlabelled data than tri-training but that the two approaches can be
successfully combined.
- Abstract(参考訳): 2つの直交半教師付き学習手法であるtri-trainingとpretrained word embeddedを依存性解析のタスクで比較した。
言語固有のFastTextとELMoの埋め込みと多言語BERTの埋め込みについて検討する。
半教師付き学習が最も影響すると思われるため、リソースの少ないシナリオにフォーカスしています。
ツリーバンクのサイズと利用可能なELMoモデルに基づいて、ハンガリー語、ウイグル語(mBERTのゼロショット言語)、ベトナム語を選択します。
さらに,低リソース環境下では英語をシミュレートする。
事前学習した単語の埋め込みは、トリオトレーニングよりも非ラベルデータの方が有効であるが、2つのアプローチをうまく組み合わせることができる。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum
Learning [5.865807597752895]
我々は、自動カリキュラム学習に依存するマルチタスク学習の手法を採用し、外来言語の性能解析を動的に最適化する。
この手法はゼロショット設定における一様・一様サンプリングよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:33:20Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Transfer learning and subword sampling for asymmetric-resource
one-to-many neural translation [14.116412358534442]
低リソース言語のためのニューラルマシン翻訳を改善する方法について概説する。
人工的に制限された3つの翻訳タスクと1つの現実世界タスクでテストが行われる。
実験は、特にスケジュールされたマルチタスク学習、denoising autoencoder、サブワードサンプリングに肯定的な効果を示す。
論文 参考訳(メタデータ) (2020-04-08T14:19:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。