論文の概要: DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian
Portuguese Natural Language Processing Task
- arxiv url: http://arxiv.org/abs/2309.16844v1
- Date: Thu, 28 Sep 2023 20:53:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 16:16:09.839499
- Title: DeBERTinha: A Multistep Approach to Adapt DebertaV3 XSmall for Brazilian
Portuguese Natural Language Processing Task
- Title(参考訳): DeBERTinha: ブラジルの自然言語処理タスクにDebertaV3 XSmallを適用するためのマルチステップアプローチ
- Authors: Israel Campiotti, Matheus Rodrigues, Yuri Albuquerque, Rafael Azevedo,
Alyson Andrade
- Abstract要約: 本稿では,ブラジルのポルトガル語自然言語処理(NLP)タスクに対して,英語で事前学習したDebertaV3 XSmallモデルを適用するためのアプローチを提案する。
この方法論の重要な側面は、ポルトガル語でモデルを効果的に調整するためのマルチステップのトレーニングプロセスである。
DeBERTinhaと呼ばれる適応型モデルは、名前付きエンティティ認識、感情分析、文関連性の決定といった下流タスクに効果を示す。
- 参考スコア(独自算出の注目度): 0.3499870393443269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach for adapting the DebertaV3 XSmall model
pre-trained in English for Brazilian Portuguese natural language processing
(NLP) tasks. A key aspect of the methodology involves a multistep training
process to ensure the model is effectively tuned for the Portuguese language.
Initial datasets from Carolina and BrWac are preprocessed to address issues
like emojis, HTML tags, and encodings. A Portuguese-specific vocabulary of
50,000 tokens is created using SentencePiece. Rather than training from
scratch, the weights of the pre-trained English model are used to initialize
most of the network, with random embeddings, recognizing the expensive cost of
training from scratch. The model is fine-tuned using the replaced token
detection task in the same format of DebertaV3 training. The adapted model,
called DeBERTinha, demonstrates effectiveness on downstream tasks like named
entity recognition, sentiment analysis, and determining sentence relatedness,
outperforming BERTimbau-Large in two tasks despite having only 40M parameters.
- Abstract(参考訳): 本稿では,ブラジルのポルトガル語自然言語処理(NLP)タスクに対して,英語で事前学習したDebertaV3 XSmallモデルを適用するためのアプローチを提案する。
この方法論の重要な側面は、ポルトガル語でモデルを効果的に調整するためのマルチステップのトレーニングプロセスである。
CarolinaとBrWacの最初のデータセットは、絵文字、HTMLタグ、エンコーディングなどの問題に対処するために前処理される。
ポルトガル語固有の5万トークンの語彙は文節を用いて作成される。
スクラッチからトレーニングするのではなく、トレーニング済みの英語モデルの重みは、ネットワークのほとんどをランダムな埋め込みで初期化するために使用され、スクラッチからトレーニングのコストを認識できる。
モデルはDebertaV3トレーニングと同じフォーマットで、置換トークン検出タスクを使用して微調整される。
DeBERTinhaと呼ばれる適応型モデルは、名前付きエンティティ認識、感情分析、文関連性の決定といった下流タスクにおいて、40万のパラメータしか持たないにもかかわらず、BERTimbau-Largeを2つのタスクで上回る効果を示す。
関連論文リスト
- Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin [3.2039731457723604]
ナイジェリアのピジン (Naija) のテキスト分類と翻訳を, 大規模に並列した英語-ピジンコーパスを収集することによって改善することを目的としている。
本研究は,英語の事前学習型言語モデルが,最大2.38BLEUの改善を伴い,多言語言語モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-01T16:47:36Z) - PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for
Translation with Semi-Supervised Pseudo-Parallel Document Generation [5.004814662623874]
本稿では,多言語事前学習のための高品質な擬似並列データを生成する,新しい半教師付きSPDGを提案する。
実験の結果, PEACH はmT5 と mBART を様々な翻訳タスクで訓練する上で, 既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T18:19:26Z) - Annotated Dataset Creation through General Purpose Language Models for
non-English Medical NLP [0.5482532589225552]
我々の研究では、事前訓練された言語モデルをデータ取得のトレーニングに活用することを提案する。
我々は、ドイツのテキストであるGPTNERMEDの医療用NERモデルをトレーニングするために使用するカスタムデータセットを作成します。
論文 参考訳(メタデータ) (2022-08-30T18:42:55Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - HerBERT: Efficiently Pretrained Transformer-based Language Model for
Polish [4.473327661758546]
本論文では,ポーランド語に焦点をあてた最初のアブレーション研究について述べる。
多言語モデルから単言語モデルへの知識伝達の事前学習手順を設計・評価します。
提案された手順に基づいて、ポーランドのBERTベースの言語モデルであるHerBERTが訓練される。
論文 参考訳(メタデータ) (2021-05-04T20:16:17Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。