論文の概要: Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource
Language
- arxiv url: http://arxiv.org/abs/2010.06447v2
- Date: Wed, 14 Oct 2020 04:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:38:05.680621
- Title: Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource
Language
- Title(参考訳): Pagsusuri ng RNN-based Transfer Learning Techniquesa Low-Resource Language
- Authors: Dan John Velasco
- Abstract要約: フィリピン語のような低リソース言語はデータの不足に悩まされており、フィリピン語のためのNLPアプリケーションを開発するのは難しい。
トランスフォーマーベースのモデルは低リソースのタスクでは有効であることが証明されているが、高い計算とメモリ要求のためにアクセシビリティの課題に直面している。
フィリピン語のための事前訓練されたAWD-LSTM言語モデルをリリースし、第2に、Hate音声分類タスクにおけるベンチマークAWD-LSTMを作成し、トランスフォーマーベースモデルと同等の性能を示し、第3に、劣化試験を用いて低リソース環境でのAWD-LSTMの性能を分析し、比較する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-resource languages such as Filipino suffer from data scarcity which makes
it challenging to develop NLP applications for Filipino language. The use of
Transfer Learning (TL) techniques alleviates this problem in low-resource
setting. In recent years, transformer-based models are proven to be effective
in low-resource tasks but faces challenges in accessibility due to its high
compute and memory requirements. For this reason, there's a need for a cheaper
but effective alternative. This paper has three contributions. First, release a
pre-trained AWD-LSTM language model for Filipino language. Second, benchmark
AWD-LSTM in the Hate Speech classification task and show that it performs on
par with transformer-based models. Third, analyze the the performance of
AWD-LSTM in low-resource setting using degradation test and compare it with
transformer-based models.
-----
Ang mga low-resource languages tulad ng Filipino ay gipit sa accessible na
datos kaya't mahirap gumawa ng mga applications sa wikang ito. Ang mga Transfer
Learning (TL) techniques ay malaking tulong para sa low-resource setting o mga
pagkakataong gipit sa datos. Sa mga nagdaang taon, nanaig ang mga
transformer-based TL techniques pagdating sa low-resource tasks ngunit ito ay
mataas na compute and memory requirements kaya nangangailangan ng mas mura pero
epektibong alternatibo. Ang papel na ito ay may tatlong kontribusyon. Una,
maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging
tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino. Pangalawa, mag
benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang
nitong makipagsabayan sa mga transformer-based models. Pangatlo, suriin ang
performance ng AWD-LSTM sa low-resource setting gamit ang degradation test at
ikumpara ito sa mga transformer-based models.
- Abstract(参考訳): フィリピン語のような低リソース言語はデータの不足に悩まされており、フィリピン語のためのNLPアプリケーションを開発するのは難しい。
転送学習(tl)技術の使用は、低リソース環境でこの問題を緩和する。
近年、トランスフォーマーベースのモデルは低リソースタスクに有効であることが証明されているが、高い計算とメモリ要求のためにアクセシビリティの課題に直面している。
そのため、より安価で効果的な代替手段が必要となる。
この論文には3つの貢献がある。
まず、フィリピン語のための事前訓練されたAWD-LSTM言語モデルをリリースする。
第2に、Hate Speech分類タスクにおけるAWD-LSTMのベンチマークを行い、トランスフォーマーベースモデルと同等の性能を示す。
第3に、劣化試験を用いて低リソース環境でのAWD-LSTMの性能を分析し、トランスモデルと比較する。
Ang mga low-resource languages tulad ng Filipino ay gipit sa access na datos kaya't mahirap gumawa ng mga applications sa wikang ito
Ang mga Transfer Learning (TL) technique ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos。
Sa mga nagdaang taon, nanaig ang mga transformer-based TL technique pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements Kaya nangangailangan ng mas mura pero epektibong alternatibo。
Ang papel na ito ay may tatlong kontribusyon.
Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP application sa wikang Filipino。
Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer based model。
Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource set gamit ang degradation test at kumpara ito sa mga transformer based model。
関連論文リスト
- Mufu: Multilingual Fused Learning for Low-Resource Translation with LLM [32.9914093870763]
自動生成された多言語候補の選択と、プロンプト内の不正確な翻訳を補正する命令を含む。
Mufuは、翻訳タスクをポストされたタスクに変換する。
Flores-200データセット上でのEn-XX翻訳実験により,Museスタイルのプロンプトに対して微調整されたLLMは,高品質な補助翻訳候補に対して堅牢であることが示された。
論文 参考訳(メタデータ) (2024-09-20T23:48:47Z) - Generative-Adversarial Networks for Low-Resource Language Data Augmentation in Machine Translation [0.0]
低リソース言語データの拡張にGAN(generative-adrial Network)を活用することを提案する。
我々のモデルは、データ拡張の可能性を示し、「健康な昼食が調理されていることを私に尋ねて」といった文で単言語データを生成する。
論文 参考訳(メタデータ) (2024-08-24T00:02:00Z) - Quality or Quantity? On Data Scale and Diversity in Adapting Large Language Models for Low-Resource Translation [62.202893186343935]
低リソース言語に大規模言語モデルを適用するのに何が必要かについて検討する。
我々は、事前トレーニングとスーパーバイザードファインチューニング(SFT)の間に並列データが重要であることを示す。
2つの低リソース言語群にまたがる3つの LLM 実験により,本研究の一般化可能性を示す一貫した傾向が示された。
論文 参考訳(メタデータ) (2024-08-23T00:59:38Z) - Why Not Transform Chat Large Language Models to Non-English? [57.16587777261422]
非英語データの不足は、非英語大言語モデル(LLM)の開発を制限する
TransLLMは、転送問題を変換チェーン・オブ・シント(translation chain of-of- Thought)でいくつかの一般的なサブタスクに分割する。
本手法は,シングルターンデータのみを用いて,マルチターンベンチマークMT-benchにおいて,強いベースラインとChatGPTより優れる。
論文 参考訳(メタデータ) (2024-05-22T18:53:25Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Improving English to Sinhala Neural Machine Translation using
Part-of-Speech Tag [1.1470070927586016]
スリランカのほとんどの人は英語を正しく読めない。
現地の人々間で情報を共有するために、英語コンテンツを現地語に翻訳する、という大きな要件がある。
論文 参考訳(メタデータ) (2022-02-17T19:45:50Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - Exploiting News Article Structure for Automatic Corpus Generation of
Entailment Datasets [1.859931123372708]
本稿では,低リソース言語を対象としたベンチマークデータセットの自動生成手法を提案する。
第2に,フィリピンの資源不足を緩和するため,ELECTRA技術に基づく事前学習型トランスフォーマを新たに作成する。
第3に,低データ領域で動作する場合の真の性能に光を当てるために,転送学習手法の分析を行う。
論文 参考訳(メタデータ) (2020-10-22T10:09:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。