論文の概要: Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI
- arxiv url: http://arxiv.org/abs/2306.12205v1
- Date: Wed, 21 Jun 2023 11:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 13:40:04.028268
- Title: Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI
- Title(参考訳): 汎用AIの一歩近づいたクロスドメインデータセットにおける事前学習言語モデルの検討
- Authors: Mohamad Ballout, Ulf Krumnack, Gunther Heidemann and Kai-Uwe
K\"uhnberger
- Abstract要約: 本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
- 参考スコア(独自算出の注目度): 0.8889304968879164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have recently emerged as a powerful tool for
fine-tuning a variety of language tasks. Ideally, when models are pre-trained
on large amount of data, they are expected to gain implicit knowledge. In this
paper, we investigate the ability of pre-trained language models to generalize
to different non-language tasks. In particular, we test them on tasks from
different domains such as computer vision, reasoning on hierarchical data, and
protein fold prediction. The four pre-trained models that we used, T5, BART,
BERT, and GPT-2 achieve outstanding results. They all have similar performance
and they outperform transformers that are trained from scratch by a large
margin. For instance, pre-trained language models perform better on the Listops
dataset, with an average accuracy of 58.7\%, compared to transformers trained
from scratch, which have an average accuracy of 29.0\%. The significant
improvement demonstrated across three types of datasets suggests that
pre-training on language helps the models to acquire general knowledge,
bringing us a step closer to general AI. We also showed that reducing the
number of parameters in pre-trained language models does not have a great
impact as the performance drops slightly when using T5-Small instead of
T5-Base. In fact, when using only 2\% of the parameters, we achieved a great
improvement compared to training from scratch. Finally, in contrast to prior
work, we find out that using pre-trained embeddings for the input layer is
necessary to achieve the desired results.
- Abstract(参考訳): 事前学習された言語モデルは最近、さまざまな言語タスクを微調整するための強力なツールとして登場した。
理想的には、モデルが大量のデータで事前訓練されている場合、暗黙の知識が得られます。
本稿では,事前学習された言語モデルが,異なる非言語タスクに一般化する能力について検討する。
特に、コンピュータビジョン、階層データに基づく推論、タンパク質の折りたたみ予測など、さまざまな領域のタスクでそれらをテストする。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
いずれも同じような性能を持ち、大きなマージンでスクラッチからトレーニングされたトランスフォーマーよりも優れています。
例えば、事前訓練された言語モデルは、平均精度が58.7\%のListopsデータセットでは、平均精度が29.0\%のスクラッチからトレーニングされたトランスフォーマーよりもパフォーマンスがよい。
3種類のデータセットで実証された大幅な改善は、言語による事前トレーニングがモデルの一般的な知識獲得に役立つことを示唆している。
また,事前学習した言語モデルのパラメータ数を減らすことは,t5ベースの代わりにt5-smallを使用する場合,パフォーマンスがわずかに低下するので,大きな影響を及ぼさないことを示した。
実際、パラメータの2\%だけを使用する場合、スクラッチからトレーニングするよりも大きな改善が得られました。
最後に,先行研究とは対照的に,事前学習した組込みを入力層に使用することで望ましい結果を得る必要があることを見出した。
関連論文リスト
- Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - A Survey of Recent Abstract Summarization Techniques [0.0]
英語とインドネシア語のウィキペディアデータセットに対する事前学習モデルの影響について検討する。
ROUGEのパフォーマンスに影響を与える最も重要な要因は、カバレッジ、密度、圧縮です。
T5-Large、Pegasus-XSum、ProphetNet-CNNDMは最高の要約を提供する。
論文 参考訳(メタデータ) (2021-04-15T20:01:34Z) - Few-shot learning through contextual data augmentation [74.20290390065475]
機械翻訳モデルは、時間とともに性能を維持するために新しいデータに適応する必要がある。
一つの例から5つの例への適応が可能であることを示す。
本モデルでは,平均313個の並列例でトレーニングした基準システムよりも精度がよいことを示す。
論文 参考訳(メタデータ) (2021-03-31T09:05:43Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。