論文の概要: A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing
Task for Low-resource Morphologically Rich Languages
- arxiv url: http://arxiv.org/abs/2102.06551v1
- Date: Fri, 12 Feb 2021 14:26:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 20:05:25.803071
- Title: A Little Pretraining Goes a Long Way: A Case Study on Dependency Parsing
Task for Low-resource Morphologically Rich Languages
- Title(参考訳): 小さな事前学習が長い道のりをたどる:低リソース形態素リッチ言語における依存構文解析タスクのケーススタディ
- Authors: Jivnesh Sandhan, Amrith Krishna, Ashim Gupta, Laxmidhar Behera and
Pawan Goyal
- Abstract要約: 低リソース環境における形態素リッチ言語(MRL)の依存性解析に着目する。
これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。
提案手法の有効性を評価するため,低リソース環境下で10個のMRL実験を行った。
- 参考スコア(独自算出の注目度): 14.694800341598368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural dependency parsing has achieved remarkable performance for many
domains and languages. The bottleneck of massive labeled data limits the
effectiveness of these approaches for low resource languages. In this work, we
focus on dependency parsing for morphological rich languages (MRLs) in a
low-resource setting. Although morphological information is essential for the
dependency parsing task, the morphological disambiguation and lack of powerful
analyzers pose challenges to get this information for MRLs. To address these
challenges, we propose simple auxiliary tasks for pretraining. We perform
experiments on 10 MRLs in low-resource settings to measure the efficacy of our
proposed pretraining method and observe an average absolute gain of 2 points
(UAS) and 3.6 points (LAS). Code and data available at:
https://github.com/jivnesh/LCM
- Abstract(参考訳): 神経依存性解析は、多くのドメインや言語で顕著なパフォーマンスを達成している。
大量のラベル付きデータのボトルネックは、低リソース言語に対するこれらのアプローチの有効性を制限する。
本研究では,低リソース環境におけるMRL(モルフォロジカルリッチ言語)の依存性解析に焦点を当てる。
係り受け解析作業には形態情報が必要であるが、形態的曖昧さと強力なアナライザの欠如は、MRLに対してこの情報を得るための課題を提起する。
これらの課題に対処するために,プリトレーニングのための簡単な補助タスクを提案する。
低資源環境下で10MBLの実験を行い,提案した予備訓練法の有効性を測定し,平均2点(UAS)と3.6点(LAS)の絶対利得を観測する。
コードとデータ https://github.com/jivnesh/LCM
関連論文リスト
- Small Models, Big Impact: Efficient Corpus and Graph-Based Adaptation of Small Multilingual Language Models for Low-Resource Languages [10.418542753869433]
低リソース言語(LRL)は、限られたデータのために自然言語処理(NLP)において重大な課題に直面している。
現在の最先端の大規模言語モデル(LLM)は、まだLRLと競合している。
mBERTやXLM-Rのような小さなマルチリンガルモデル(mLM)は、トレーニングデータサイズに適合する能力が向上するため、より有望である。
論文 参考訳(メタデータ) (2025-02-14T13:10:39Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - From Priest to Doctor: Domain Adaptaion for Low-Resource Neural Machine Translation [3.666125285899499]
多くの言語は、高性能汎用ニューラルネットワーク翻訳(NMT)モデルを訓練するのに不十分なデータを持っている。
世界中の言語の多くは、高性能汎用ニューラルマシン翻訳(NMT)モデルをトレーニングするのに不十分なデータを持っている。
論文 参考訳(メタデータ) (2024-12-01T21:06:08Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - Adversarial Meta Sampling for Multilingual Low-Resource Speech
Recognition [159.9312272042253]
多言語メタラーニングASR(MML-ASR)を改善するための新しい逆メタサンプリング(AMS)アプローチを開発しています。
AMSは、各ソース言語のタスクサンプリング確率を適応的に決定する。
MML-ASRにAMSを適用すると、2つの多言語データセットの実験結果が大幅にパフォーマンス向上します。
論文 参考訳(メタデータ) (2020-12-22T09:33:14Z) - Low-Resource Adaptation of Neural NLP Models [0.30458514384586405]
本論文は,情報抽出と自然言語理解における低リソースシナリオを扱う手法について考察する。
ニューラルNLPモデルを開発し,学習データを最小限にしたNLPタスクに関する多くの研究課題を探索する。
論文 参考訳(メタデータ) (2020-11-09T12:13:55Z) - A Survey on Recent Approaches for Natural Language Processing in
Low-Resource Scenarios [30.391291221959545]
ディープニューラルネットワークと巨大な言語モデルが、自然言語アプリケーションにおいて一様化しつつある。
大量のトレーニングデータを必要とすることで知られているため、低リソース環境でのパフォーマンスを改善するための作業が増えている。
ニューラルモデルに対する最近の根本的な変化と、一般的なプレトレインおよびファインチューンパラダイムにより、低リソースの自然言語処理に対する有望なアプローチを調査した。
論文 参考訳(メタデータ) (2020-10-23T11:22:01Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。