論文の概要: Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability
- arxiv url: http://arxiv.org/abs/2103.07162v1
- Date: Fri, 12 Mar 2021 09:19:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 20:25:33.515506
- Title: Is BERT a Cross-Disciplinary Knowledge Learner? A Surprising Finding of
Pre-trained Models' Transferability
- Title(参考訳): BERTはCross-Disciplinary Knowledge Learnerですか?
事前訓練されたモデルの伝達性に関する一考察
- Authors: Wei-Tsung Kao, Hung-Yi Lee
- Abstract要約: BERTなどのテキストデータに予め訓練されたモデルのパワーを、一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討します。
テキスト以外のデータでも、テキストに事前学習されたモデルはランダムなモデルよりも高速に収束する。
- 参考スコア(独自算出の注目度): 74.11825654535895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate whether the power of the models pre-trained on
text data, such as BERT, can be transferred to general token sequence
classification applications. To verify pre-trained models' transferability, we
test the pre-trained models on (1) text classification tasks with meanings of
tokens mismatches, and (2) real-world non-text token sequence classification
data, including amino acid sequence, DNA sequence, and music. We find that even
on non-text data, the models pre-trained on text converge faster than the
randomly initialized models, and the testing performance of the pre-trained
models is merely slightly worse than the models designed for the specific
tasks.
- Abstract(参考訳): 本稿では,BERTなどのテキストデータに事前学習したモデルのパワーを,一般的なトークンシーケンス分類アプリケーションに転送できるかどうかを検討する。
学習済みモデルの転送性を検証するために,(1)トークンミスマッチの意味を持つテキスト分類タスク,(2)アミノ酸配列,DNA配列,音楽を含む実世界の非テキストトークン配列分類データについて,学習済みモデルの検証を行った。
非テキストデータでも、テキスト上で事前トレーニングされたモデルはランダムに初期化されたモデルよりも速く収束し、事前トレーニングされたモデルのテスト性能は特定のタスク用に設計されたモデルよりもわずかに悪いことが分かります。
関連論文リスト
- Self-Supervised Representation Learning for Online Handwriting Text
Classification [0.8594140167290099]
本稿では,日本語と中国語の個人によるオンライン筆跡から情報表現を抽出するための事前学習の前提として,新しいストロークマスキング(POSM)を提案する。
抽出した表現の質を評価するために,本質的評価法と外生的評価法の両方を用いる。
事前訓練されたモデルは、作家の識別、性別分類、手書きの分類といったタスクにおいて、最先端の結果を達成するために微調整される。
論文 参考訳(メタデータ) (2023-10-10T14:07:49Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Momentum Calibration for Text Generation [86.58432361938806]
テキスト生成のためのMoCa(bf Momentum bf Calibration)を提案する。
MoCaは、ビームサーチを備えた運動量移動平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法である。
論文 参考訳(メタデータ) (2022-12-08T13:12:10Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z) - Data Augmentation using Pre-trained Transformer Models [2.105564340986074]
本研究では, 自動回帰モデル (GPT-2) や自動エンコーダモデル (BERT) , セック2seqモデル (BART) といった, 条件付きデータ拡張のためのトランスフォーマーベース事前学習モデルについて検討する。
クラスラベルをテキストシーケンスにプリコンパイルすることは、データ拡張のために事前訓練されたモデルを条件付けするための、シンプルで効果的な方法であることを示す。
論文 参考訳(メタデータ) (2020-03-04T18:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。