Fugu-MT 論文翻訳(概要): ptt5-v2: A Closer Look at Continued Pretraining of T5 Models for the Portuguese Language

論文の概要: ptt5-v2: A Closer Look at Continued Pretraining of T5 Models for the Portuguese Language

arxiv url: http://arxiv.org/abs/2406.10806v1
Date: Sun, 16 Jun 2024 05:17:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 20:41:29.341670
Title: ptt5-v2: A Closer Look at Continued Pretraining of T5 Models for the Portuguese Language
Title（参考訳）: ptt5-v2: ポルトガル語のT5モデルの継続事前トレーニング
Authors: Marcos Piau, Roberto Lotufo, Rodrigo Nogueira,
Abstract要約: この作業は、$texttptt5-v2$を導入し、ポルトガル向けのT5モデルの継続的な事前トレーニングを調査した。ポルトガルの下流3つのタスクの微調整は、後者の2つにSOTAの結果をもたらす。おそらく意外なことに、その影響はベースラインと比べて微妙だ。
参考スコア（独自算出の注目度）: 10.39816548971042
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite advancements in Natural Language Processing (NLP) and the growing availability of pretrained models, the English language remains the primary focus of model development. Continued pretraining on language-specific corpora provides a practical solution for adapting models to other languages. However, the impact of different pretraining settings on downstream tasks remains underexplored. This work introduces $\texttt{ptt5-v2}$, investigating the continued pretraining of T5 models for Portuguese. We first develop a baseline set of settings and pretrain models with sizes up to 3B parameters. Finetuning on three Portuguese downstream tasks (assin2 STS, assin2 RTE, and TweetSentBR) yields SOTA results on the latter two. We then explore the effects of different pretraining configurations, including quality filters, optimization strategies, and multi-epoch pretraining. Perhaps surprisingly, their impact remains subtle compared to our baseline. We release $\texttt{ptt5-v2}$ pretrained checkpoints and the finetuned MonoT5 rerankers on HuggingFace at https://huggingface.co/collections/unicamp-dl/ptt5-v2-666538a650188ba00aa8d2d0 and https://huggingface.co/collections/unicamp-dl/monoptt5-66653981877df3ea727f720d.
Abstract（参考訳）: 自然言語処理(NLP)の進歩と事前訓練されたモデルの増加にもかかわらず、英語はモデル開発の主要な焦点である。言語固有のコーパスに対する事前トレーニングは、他の言語にモデルを適応するための実用的なソリューションを提供する。しかし、異なる事前トレーニング設定が下流タスクに与える影響は未調査のままである。この研究は$\texttt{ptt5-v2}$を導入し、ポルトガル向けのT5モデルの継続的な事前トレーニングを調査した。まず、最大3Bパラメータを持つベースライン設定と事前訓練モデルを開発する。ポルトガルの3つの下流タスク(assin2 STS、assin2 RTE、TweetSentBR)を微調整すると、後者の2つでSOTA結果が得られる。次に、品質フィルタ、最適化戦略、マルチエポック事前学習など、様々な事前学習構成の効果について検討する。おそらく意外なことに、その影響はベースラインと比べて微妙だ。 We release $\texttt{ptt5-v2}$ pretrained checkpoints and the finetuned MonoT5 rerankers on HuggingFace at https://huggingface.co/collections/unicamp-dl/ptt5-v2-666538a650188ba00a8d2d0 and https://huggingface.co/collections/unicamp-dl/monoptt5-66653981877df3ea727f720d。

関連論文リスト

Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
A Text-to-Text Model for Multilingual Offensive Language Identification [19.23565690468299]
本研究では,テキスト・トゥ・テキスト・トランスフォーマを用いた攻撃的言語識別のためのエンコーダ・デコーダアーキテクチャを用いた最初の事前学習モデルを提案する(T5)。我々の事前学習されたT5モデルは、複数の英語ベンチマークにおいて、fBERTやHateBERTのような攻撃的言語検出のために微調整された他のトランスフォーマーベースモデルよりも優れている。同様のアプローチで、mT5を用いて攻撃的言語識別のための最初の多言語事前訓練モデルを訓練する。
論文参考訳（メタデータ） (2023-12-06T09:37:27Z)
Investigating Pre-trained Language Models on Cross-Domain Datasets, a Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文参考訳（メタデータ） (2023-06-21T11:55:17Z)
T5lephone: Bridging Speech and Text Self-supervised Models for Spoken Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文参考訳（メタデータ） (2022-11-01T17:00:23Z)
Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文参考訳（メタデータ） (2022-05-10T19:32:20Z)
Improving Large-scale Language Models and Resources for Filipino [0.0]
フィリピン語のための大規模事前学習コーパスであるTLUnifiedデータセットの構築について概説する。第2に,RoBERTa事前学習法に従って,新しいトランスフォーマー言語モデルを事前訓練し,小型コーパスで訓練した既存モデルを置き換える。我々の新しいRoBERTaモデルは、テスト精度が平均4.47%向上した3つのベンチマークデータセットにおいて、既存のフィリピンモデルよりも大幅に改善されたことを示している。
論文参考訳（メタデータ） (2021-11-11T05:00:58Z)
bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。 bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文参考訳（メタデータ） (2021-10-14T04:05:25Z)
A Survey of Recent Abstract Summarization Techniques [0.0]
英語とインドネシア語のウィキペディアデータセットに対する事前学習モデルの影響について検討する。 ROUGEのパフォーマンスに影響を与える最も重要な要因は、カバレッジ、密度、圧縮です。 T5-Large、Pegasus-XSum、ProphetNet-CNNDMは最高の要約を提供する。
論文参考訳（メタデータ） (2021-04-15T20:01:34Z)
Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文参考訳（メタデータ） (2020-12-22T13:38:06Z)
Emergent Communication Pretraining for Few-Shot Machine Translation [66.48990742411033]
我々は、参照ゲームからの創発的コミュニケーションを介してニューラルネットワークを事前訓練する。私たちの重要な前提は、実世界の環境の粗悪な近似として、画像に基づくコミュニケーションを基盤にすることで、帰納的に自然言語学習のモデルに偏りが生じる、ということです。
論文参考訳（メタデータ） (2020-11-02T10:57:53Z)
Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文参考訳（メタデータ） (2020-10-24T11:55:28Z)
A Tailored Pre-Training Model for Task-Oriented Dialog Generation [60.05269529832447]
タスク指向対話システムのための事前訓練された役割交替言語モデル(PRAL)を提案する。 13個の既存のデータセットをクリーニングすることでタスク指向の対話事前学習データセットを導入する。その結果,PRALは最先端の手法と同等以上の性能を示した。
論文参考訳（メタデータ） (2020-04-24T09:25:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。