論文の概要: How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2105.14515v1
- Date: Sun, 30 May 2021 12:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 09:11:27.707504
- Title: How Low is Too Low? A Computational Perspective on Extremely
Low-Resource Languages
- Title(参考訳): どのくらい低いか?
極低リソース言語に関する計算論的考察
- Authors: Rachit Bansal, Himanshu Choudhary, Ravneet Punia, Niko Schenk, Jacob L
Dahl, \'Emilie Pag\'e-Perron
- Abstract要約: シュメール語のための最初の言語間情報抽出パイプラインを紹介する。
また、低リソースNLPのための解釈可能性ツールキットであるInterpretLRをキュレートする。
パイプラインのほとんどのコンポーネントは、解釈可能な実行を得るために、他の言語に一般化することができます。
- 参考スコア(独自算出の注目度): 1.7625363344837164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent advancements of attention-based deep learning
architectures across a majority of Natural Language Processing tasks, their
application remains limited in a low-resource setting because of a lack of
pre-trained models for such languages. In this study, we make the first attempt
to investigate the challenges of adapting these techniques for an extremely
low-resource language -- Sumerian cuneiform -- one of the world's oldest
written languages attested from at least the beginning of the 3rd millennium
BC. Specifically, we introduce the first cross-lingual information extraction
pipeline for Sumerian, which includes part-of-speech tagging, named entity
recognition, and machine translation. We further curate InterpretLR, an
interpretability toolkit for low-resource NLP, and use it alongside human
attributions to make sense of the models. We emphasize on human evaluations to
gauge all our techniques. Notably, most components of our pipeline can be
generalised to any other language to obtain an interpretable execution of the
techniques, especially in a low-resource setting. We publicly release all
software, model checkpoints, and a novel dataset with domain-specific
pre-processing to promote further research.
- Abstract(参考訳): 自然言語処理タスクの大部分にわたる注意に基づくディープラーニングアーキテクチャの最近の進歩にもかかわらず、それらのアプリケーションは、そのような言語のための事前学習されたモデルが欠如しているため、低リソース環境では限定されている。
本研究では,少なくとも紀元前3千年紀の初めに証明された世界最古の文献言語である,非常に低リソースな言語であるシュメール語cuneiformにこれらのテクニックを適用することの課題について,最初の試みを行う。
具体的には,パート・オブ・スパイチタグ,名前付きエンティティ認識,機械翻訳などを含む,最初の言語間情報抽出パイプラインを提案する。
さらに、低リソースNLPの解釈可能性ツールキットであるInterpretLRを、人間の属性とともに利用して、モデルを理解する。
すべての技術を評価するために、人間の評価を強調します。
特に、パイプラインのほとんどのコンポーネントは、特に低リソース環境で、解釈可能な技術の実行を得るために、他の言語に一般化することができます。
我々は,すべてのソフトウェア,モデルチェックポイント,ドメイン固有の事前処理を備えた新しいデータセットを公開して,さらなる研究を促進する。
関連論文リスト
- Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Learning Translation Quality Evaluation on Low Resource Languages from
Large Language Models [4.168157981135698]
人間のアノテータを必要とせずに,Large Language Models (LLM) から知識を抽出して学習指標を改善する方法を示す。
本研究では,低リソース言語上でのBLEURTライクなモデルの性能を改良できることを示す。
論文 参考訳(メタデータ) (2023-02-07T14:35:35Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Combining Pretrained High-Resource Embeddings and Subword
Representations for Low-Resource Languages [24.775371434410328]
形態学的に豊かな言語(MRL)の質を利用した手法を探求する。
本稿では,Xhosa- English 翻訳の下流処理において,事前学習と形態的インフォームド単語の埋め込みを併用したメタ埋め込み手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-03-09T21:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。