論文の概要: Transformers and Transfer Learning for Improving Portuguese Semantic
Role Labeling
- arxiv url: http://arxiv.org/abs/2101.01213v2
- Date: Wed, 6 Jan 2021 11:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 22:57:04.390247
- Title: Transformers and Transfer Learning for Improving Portuguese Semantic
Role Labeling
- Title(参考訳): ポルトガル語意味的役割ラベリング改善のためのトランスフォーマーとトランスファー学習
- Authors: Sofia Oliveira and Daniel Loureiro and Al\'ipio Jorge
- Abstract要約: 低リソース言語、特にポルトガル語の場合、現在利用可能なSRLモデルは、トレーニングデータの不足によって妨げられます。
トレーニング済みのBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
- 参考スコア(独自算出の注目度): 2.9005223064604078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic Role Labeling (SRL) is a core Natural Language Processing task. For
English, recent methods based on Transformer models have allowed for major
improvements over the previous state of the art. However, for low resource
languages, and in particular for Portuguese, currently available SRL models are
hindered by scarce training data. In this paper, we explore a model
architecture with only a pre-trained BERT-based model, a linear layer, softmax
and Viterbi decoding. We substantially improve the state of the art performance
in Portuguese by over 15$F_1$. Additionally, we improve SRL results in
Portuguese corpora by exploiting cross-lingual transfer learning using
multilingual pre-trained models (XLM-R), and transfer learning from dependency
parsing in Portuguese. We evaluate the various proposed approaches empirically
and as result we present an heuristic that supports the choice of the most
appropriate model considering the available resources.
- Abstract(参考訳): Semantic Role Labeling (SRL)は、自然言語処理のコアタスクである。
英語では、変圧器モデルに基づく最近の手法は、以前の技術から大きく改善されている。
しかし、低リソース言語、特にポルトガルでは、現在利用可能なSRLモデルは訓練データ不足によって妨げられている。
本稿では,事前学習されたBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
ポルトガルでは15ドルF_1ドル以上のアートパフォーマンスが大幅に向上した。
さらに,多言語事前学習モデル (XLM-R) を用いた言語間移動学習と,ポルトガル語による係り受け解析からの伝達学習を利用して,ポルトガル語コーパスのSRL結果を改善する。
提案手法を実証的に評価し,利用可能な資源を考慮した最も適切なモデルの選択を支援するヒューリスティックを提案する。
関連論文リスト
- PeLLE: Encoder-based language models for Brazilian Portuguese based on
open data [0.40485107444088947]
本稿では,ブラジルポルトガル語のRoBERTaアーキテクチャに基づく大規模言語モデルのファミリーであるPeLLEについて紹介する。
既存の多言語およびPT-BRによる事前学習型トランスフォーマーベースLLMエンコーダに対するPeLLEモデルの評価を行った。
論文 参考訳(メタデータ) (2024-02-29T14:34:03Z) - Gl\'orIA - A Generative and Open Large Language Model for Portuguese [4.782288068552145]
ポルトガルの堅牢なデコーダLLMであるGl'orIAを紹介する。
Gl'orIAを事前訓練するために,様々なソースから35億個のトークンからなる包括的PT-PTテキストコーパスを組み立てた。
Gl'orIAは、言語モデリングにおいて、既存のオープンPTデコーダモデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2024-02-20T12:36:40Z) - Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer [136.09386219006123]
我々は、任意のタスクや言語への高いポータビリティとパラメータ効率の移行を可能にするアダプタベースのフレームワークであるMAD-Xを提案する。
MAD-Xは、名前付きエンティティ認識と因果コモンセンス推論に基づいて、タイプボロジーに多様性のある言語群を横断する言語間移動において、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-04-30T18:54:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。