論文の概要: Tackling the Low-resource Challenge for Canonical Segmentation
- arxiv url: http://arxiv.org/abs/2010.02804v1
- Date: Tue, 6 Oct 2020 15:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 04:52:28.242002
- Title: Tackling the Low-resource Challenge for Canonical Segmentation
- Title(参考訳): 正規セグメンテーションのための低リソースチャレンジに取り組む
- Authors: Manuel Mager, \"Ozlem \c{C}etino\u{g}lu and Katharina Kann
- Abstract要約: カノニカルな形態素区分は、単語を標準化された形態素に分割するものである。
形態素生成の密接に関連する領域から借用した2つの新しいモデルについて検討する。
低リソース環境では、新しいアプローチがすべての言語で11.4%の精度で既存のものより優れていることが分かりました。
- 参考スコア(独自算出の注目度): 23.17111619633273
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Canonical morphological segmentation consists of dividing words into their
standardized morphemes. Here, we are interested in approaches for the task when
training data is limited. We compare model performance in a simulated
low-resource setting for the high-resource languages German, English, and
Indonesian to experiments on new datasets for the truly low-resource languages
Popoluca and Tepehua. We explore two new models for the task, borrowing from
the closely related area of morphological generation: an LSTM pointer-generator
and a sequence-to-sequence model with hard monotonic attention trained with
imitation learning. We find that, in the low-resource setting, the novel
approaches outperform existing ones on all languages by up to 11.4% accuracy.
However, while accuracy in emulated low-resource scenarios is over 50% for all
languages, for the truly low-resource languages Popoluca and Tepehua, our best
model only obtains 37.4% and 28.4% accuracy, respectively. Thus, we conclude
that canonical segmentation is still a challenging task for low-resource
languages.
- Abstract(参考訳): 標準形態区分は、単語を標準化された形態素に分割する。
ここでは、トレーニングデータに制限がある場合のタスクに対するアプローチに関心があります。
超低リソース言語であるpopolucaとtepehuaの新しいデータセットを実験するために、ドイツ語、英語、インドネシアの低リソース言語をシミュレートした低リソース環境におけるモデルパフォーマンスを比較した。
本研究は、LSTMポインタジェネレータと、模倣学習で訓練されたハードモノトニックアテンションを持つシーケンス・ツー・シーケンスモデルという、形態素生成の密接に関連する領域から借用した2つの新しいモデルについて検討する。
低リソース環境では、新しいアプローチはすべての言語で11.4%の精度で既存のものより優れています。
しかしながら、エミュレートされた低リソースシナリオの精度は全言語で50%以上であるが、真の低リソース言語であるPopolucaとTepehuaでは、最良のモデルはそれぞれ37.4%と28.4%の精度しか得られていない。
したがって、標準セグメンテーションは低リソース言語では依然として難しい課題である。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Machine Translation for Ge'ez Language [0.0]
Ge'ezのような低リソース言語の機械翻訳は、語彙外単語、ドメインミスマッチ、ラベル付きトレーニングデータの欠如といった課題に直面している。
言語関連性に基づく多言語ニューラルマシン翻訳(MNMT)モデルを開発した。
また,最新のLCMであるGPT-3.5を用いて,ファジィマッチングを用いた数ショット翻訳実験を行った。
論文 参考訳(メタデータ) (2023-11-24T14:55:23Z) - Low Resource Summarization using Pre-trained Language Models [1.26404863283601]
そこで本稿では,低リソースの要約に自己注意型トランスフォーマーベースアーキテクチャモデル(mBERT,mT5)を適用する手法を提案する。
適応的な要約モデル textiturT5 は、高リソース言語英語の最先端モデルに匹敵する評価スコア(最大46.35 ROUGE-1,77 BERTScore)で、低リソース言語の文脈情報を効果的にキャプチャすることができる。
論文 参考訳(メタデータ) (2023-10-04T13:09:39Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - The Importance of Context in Very Low Resource Language Modeling [3.734153902687548]
非常に低いリソースシナリオでは、統計的なn-gram言語モデルは最先端のニューラルモデルより優れている。
低リソース環境におけるニューラルモデルの性能向上のための3つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-10T11:19:56Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。