論文の概要: Cross-lingual Transfer Learning for Javanese Dependency Parsing
- arxiv url: http://arxiv.org/abs/2401.12072v1
- Date: Mon, 22 Jan 2024 16:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:23:24.343322
- Title: Cross-lingual Transfer Learning for Javanese Dependency Parsing
- Title(参考訳): Javanese Dependency Parsingのための言語間変換学習
- Authors: Fadli Aulawi Al Ghiffari, Ika Alfina, Kurniawati Azizah
- Abstract要約: 本研究は,ジャワ語における係り受け解析の強化における伝達学習の有効性を評価することに焦点を当てた。
Javaneseを含む100以上の言語からの依存性ツリーバンクからなるUniversal Dependenciesデータセットを利用する。
- 参考スコア(独自算出の注目度): 0.20537467311538835
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While structure learning achieves remarkable performance in high-resource
languages, the situation differs for under-represented languages due to the
scarcity of annotated data. This study focuses on assessing the efficacy of
transfer learning in enhancing dependency parsing for Javanese, a language
spoken by 80 million individuals but characterized by limited representation in
natural language processing. We utilized the Universal Dependencies dataset
consisting of dependency treebanks from more than 100 languages, including
Javanese. We propose two learning strategies to train the model: transfer
learning (TL) and hierarchical transfer learning (HTL). While TL only uses a
source language to pre-train the model, the HTL method uses a source language
and an intermediate language in the learning process. The results show that our
best model uses the HTL method, which improves performance with an increase of
10% for both UAS and LAS evaluations compared to the baseline model.
- Abstract(参考訳): 構造学習は高リソース言語では顕著な性能を発揮するが,アノテーション付きデータの不足により,表現不足言語では状況が異なってくる。
本研究は,8000万人が話す自然言語処理における限定表現を特徴とする言語であるjavaneseの依存性解析強化におけるトランスファー学習の有効性を評価することを目的とする。
Javaneseを含む100以上の言語からの依存性ツリーバンクからなるUniversal Dependenciesデータセットを活用しました。
本稿では,トランスファーラーニング(TL)と階層型トランスファーラーニング(HTL)の2つの学習手法を提案する。
TLはモデルの事前トレーニングにソース言語のみを使用するが、HTL法は学習プロセスにおいてソース言語と中間言語を使用する。
その結果,我々の最善のモデルはhtl法を用いており,基準モデルと比較してuasおよびlasの評価が10%向上し,性能が向上した。
関連論文リスト
- Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - PLUG: Leveraging Pivot Language in Cross-Lingual Instruction Tuning [46.153828074152436]
我々は、低リソース言語における命令チューニングを強化するために、ピボット言語ガイド生成手法を提案する。
モデルを訓練して、まずピボット言語で命令を処理し、次にターゲット言語で応答を生成する。
提案手法は,LLMの命令追従能力が平均29%向上したことを示す。
論文 参考訳(メタデータ) (2023-11-15T05:28:07Z) - Analysing Cross-Lingual Transfer in Low-Resourced African Named Entity
Recognition [0.10641561702689348]
低リソース言語10言語間の言語間移動学習の特性について検討する。
一つの言語でうまく機能するモデルは、他の言語への一般化を犠牲にして、しばしばそうする。
ソースとターゲットデータセット間で重複するデータの量は、言語間の地理的あるいは遺伝的距離よりも、転送性能の予測器として優れている。
論文 参考訳(メタデータ) (2023-09-11T08:56:47Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Meta-Learning a Cross-lingual Manifold for Semantic Parsing [75.26271012018861]
新しい言語をサポートするためにセマンティックをローカライズするには、効果的な言語間一般化が必要である。
本稿では,言語間移動において,最大サンプル効率で注釈付きセマンティックを学習するための一階メタ学習アルゴリズムを提案する。
ATIS上の6つの言語にまたがる結果は、ステップの組み合わせによって、各新言語におけるソーストレーニングデータの10パーセントを正確なセマンティクスでサンプリングできることを示している。
論文 参考訳(メタデータ) (2022-09-26T10:42:17Z) - Zero-Shot Dependency Parsing with Worst-Case Aware Automated Curriculum
Learning [5.865807597752895]
我々は、自動カリキュラム学習に依存するマルチタスク学習の手法を採用し、外来言語の性能解析を動的に最適化する。
この手法はゼロショット設定における一様・一様サンプリングよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-03-16T11:33:20Z) - Learning Natural Language Generation from Scratch [25.984828046001013]
本稿では,TRUncated ReinForcement Learning for Language (TrufLL)を紹介する。
強化学習(RL)のみを用いて、条件付き言語モデルをゼロから訓練する独自のap-proachである。
論文 参考訳(メタデータ) (2021-09-20T08:46:51Z) - Cross-Lingual Adaptation for Type Inference [29.234418962960905]
弱い型付き言語間で深層学習に基づく型推論を行うための言語間適応フレームワークPLATOを提案する。
強く型付けされた言語からのデータを活用することで、PLATOは、バックボーンのクロスプログラミング言語モデルの難易度を改善する。
論文 参考訳(メタデータ) (2021-07-01T00:20:24Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。