論文の概要: Advancing Neural Encoding of Portuguese with Transformer Albertina PT-*
- arxiv url: http://arxiv.org/abs/2305.06721v1
- Date: Thu, 11 May 2023 10:56:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 15:13:01.280974
- Title: Advancing Neural Encoding of Portuguese with Transformer Albertina PT-*
- Title(参考訳): 変換器Albertina PT-*によるポルトガル語のニューラルエンコーディングの改善
- Authors: Jo\~ao Rodrigues, Lu\'is Gomes, Jo\~ao Silva, Ant\'onio Branco,
Rodrigo Santos, Henrique Lopes Cardoso, Tom\'as Os\'orio
- Abstract要約: アルベルティーナPT-*は、ポルトガルからのヨーロッパポルトガル(PT-PT)とブラジルからのアメリカポルトガル(PT-BR)の2つの変種のうちの2つの芸術の新たな状態を設定する基礎モデルである。
アルベルティーナと競合するモデルの性能は、ポルトガル語に適応した顕著な下流言語処理タスクで評価することで評価された。
Albertina PT-PT と PT-BR はいずれも無償で配布されており、最も寛容なライセンスの下ではコンシューマグレードのハードウェア上で動作可能である。
- 参考スコア(独自算出の注目度): 0.5937476291232802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To advance the neural encoding of Portuguese (PT), and a fortiori the
technological preparation of this language for the digital age, we developed a
Transformer-based foundation model that sets a new state of the art in this
respect for two of its variants, namely European Portuguese from Portugal
(PT-PT) and American Portuguese from Brazil (PT-BR).
To develop this encoder, which we named Albertina PT-*, a strong model was
used as a starting point, DeBERTa, and its pre-training was done over data sets
of Portuguese, namely over a data set we gathered for PT-PT and over the brWaC
corpus for PT-BR. The performance of Albertina and competing models was
assessed by evaluating them on prominent downstream language processing tasks
adapted for Portuguese.
Both Albertina PT-PT and PT-BR versions are distributed free of charge and
under the most permissive license possible and can be run on consumer-grade
hardware, thus seeking to contribute to the advancement of research and
innovation in language technology for Portuguese.
- Abstract(参考訳): ポルトガル語(pt-pt)とブラジル語(pt-br)の2つの変種についてトランスフォーマーベースの基礎モデルを開発した。
このエンコーダを開発するために、我々はAlbertina PT-*と名付けた強力なモデルを出発点としてDeBERTaを使用し、その事前学習をポルトガルのデータセット、すなわちPT-PTのために収集したデータセットとPT-BRのためのbrWaCコーパス上で行った。
アルベルティーナと競合するモデルの性能は、ポルトガル語に適応した下流言語処理タスクで評価することで評価された。
アルベルティーナpt-ptとpt-brの両方のバージョンは、可能な限り無償で配布され、消費者向けのハードウェア上で動作可能であり、ポルトガル語のための言語技術の研究と革新の進展に貢献したいと考えている。
関連論文リスト
- From Brazilian Portuguese to European Portuguese [2.048226951354646]
ブラジル・ポルトガル語とヨーロッパ・ポルトガル語は同じ言語の2つの変種である。
2つの変種間での資源の入手にはかなりの不均衡がある。
この不平等は、ヨーロッパのポルトガル語話者が利用できる翻訳サービスの質に影響を与える可能性がある。
論文 参考訳(メタデータ) (2024-08-14T10:58:48Z) - PORTULAN ExtraGLUE Datasets and Models: Kick-starting a Benchmark for the Neural Processing of Portuguese [1.2779732438508473]
我々は、一連の言語処理タスクのためのデータセットのコレクションと、これらの下流タスクに関する微調整されたニューラルネットワークモデルのコレクションにコントリビュートする。
もともと英語で開発された文献の主流ベンチマークと合わせると、データセットは英語から機械翻訳され、最先端の翻訳エンジンが組み込まれていた。
その結果得られた PortULAN ExtraGLUE ベンチマークは、今後の研究で改善が追求されるポルトガルの研究の基盤となっている。
論文 参考訳(メタデータ) (2024-04-08T09:22:41Z) - Advancing Generative AI for Portuguese with Open Decoder Gerv\'asio PT* [0.38570000254272757]
本稿では,ポルトガル語のニューラルデコーディングにおける新たな技術状態を設定する,完全にオープンなTransformerベースの命令調整デコーダモデルを提案する。
Gerv'asioのすべてのバージョンはオープンソースであり、研究用と商用用の両方のライセンスで無償で配布されている。
論文 参考訳(メタデータ) (2024-02-29T00:19:13Z) - On the Complementarity between Pre-Training and Back-Translation for
Neural Machine Translation [63.914940899327966]
事前学習(PT)と後方翻訳(BT)は単言語データを利用するためのシンプルで強力な方法である。
本稿では,PTとBTの相補性について検討する。
我々は、WMT16英語-ルーマニア語と英語-ロシア語ベンチマークで最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2021-10-05T04:01:36Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - Transformers and Transfer Learning for Improving Portuguese Semantic
Role Labeling [2.9005223064604078]
低リソース言語、特にポルトガル語の場合、現在利用可能なSRLモデルは、トレーニングデータの不足によって妨げられます。
トレーニング済みのBERTモデル,線形層,ソフトマックス,ビタビ復号のみを用いたモデルアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-01-04T19:56:01Z) - PTT5: Pretraining and validating the T5 model on Brazilian Portuguese
data [4.579262239784748]
ポルトガルのWebページの大規模なコレクションであるBrWac corpus上で、T5モデルを事前訓練する。
ポルトガルの事前訓練モデルでは、オリジナルのT5モデルよりも大幅に性能が向上していることを示す。
論文 参考訳(メタデータ) (2020-08-20T18:10:13Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z) - MAD-X: An Adapter-Based Framework for Multi-Task Cross-Lingual Transfer [136.09386219006123]
我々は、任意のタスクや言語への高いポータビリティとパラメータ効率の移行を可能にするアダプタベースのフレームワークであるMAD-Xを提案する。
MAD-Xは、名前付きエンティティ認識と因果コモンセンス推論に基づいて、タイプボロジーに多様性のある言語群を横断する言語間移動において、芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-04-30T18:54:43Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。