論文の概要: The MultiBERTs: BERT Reproductions for Robustness Analysis
- arxiv url: http://arxiv.org/abs/2106.16163v1
- Date: Wed, 30 Jun 2021 15:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-01 15:36:34.963047
- Title: The MultiBERTs: BERT Reproductions for Robustness Analysis
- Title(参考訳): MultiBERTs:ロバストネス分析のためのBERT再現
- Authors: Thibault Sellam, Steve Yadlowsky, Jason Wei, Naomi Saphra, Alexander
D'Amour, Tal Linzen, Jasmijn Bastings, Iulia Turc, Jacob Eisenstein, Dipanjan
Das, Ian Tenney, Ellie Pavlick
- Abstract要約: 事前トレーニングの再実行は、パフォーマンスに関して、かなり異なる結論をもたらす可能性がある。
我々は25個のBERTベースのチェックポイントの集合であるMultiBERTを紹介する。
目標は、研究者が事前訓練の手順について、堅牢で統計的に正当化された結論を描けるようにすることである。
- 参考スコア(独自算出の注目度): 86.29162676103385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Experiments with pretrained models such as BERT are often based on a single
checkpoint. While the conclusions drawn apply to the artifact (i.e., the
particular instance of the model), it is not always clear whether they hold for
the more general procedure (which includes the model architecture, training
data, initialization scheme, and loss function). Recent work has shown that
re-running pretraining can lead to substantially different conclusions about
performance, suggesting that alternative evaluations are needed to make
principled statements about procedures. To address this question, we introduce
MultiBERTs: a set of 25 BERT-base checkpoints, trained with similar
hyper-parameters as the original BERT model but differing in random
initialization and data shuffling. The aim is to enable researchers to draw
robust and statistically justified conclusions about pretraining procedures.
The full release includes 25 fully trained checkpoints, as well as statistical
guidelines and a code library implementing our recommended hypothesis testing
methods. Finally, for five of these models we release a set of 28 intermediate
checkpoints in order to support research on learning dynamics.
- Abstract(参考訳): BERTのような事前訓練されたモデルを用いた実験は、しばしば単一のチェックポイントに基づいている。
作成された結論はアーティファクト(すなわち、モデルの特定のインスタンス)に適用されるが、より一般的な手順(モデルアーキテクチャ、トレーニングデータ、初期化スキーム、損失関数を含む)に当てはまるかどうかは、必ずしも明確ではない。
最近の研究は、再実行前トレーニングは、パフォーマンスに関する実質的な異なる結論につながることを示しており、手順に関する原則に基づいた記述を行うために代替的な評価が必要であることを示唆している。
この問題に対処するために、25個のBERTベースのチェックポイントからなるMultiBERTを導入し、元のBERTモデルと同様のハイパーパラメータでトレーニングするが、ランダム初期化やデータシャッフルでは異なる。
その目的は、研究者が事前訓練の手順についてロバストで統計的に正当化された結論を導き出すことである。
完全なリリースには25の完全にトレーニングされたチェックポイント、統計ガイドライン、推奨仮説テストメソッドを実装するコードライブラリが含まれている。
最後に,これら5つのモデルに対して,28の中間チェックポイントをリリースして,学習ダイナミクスの研究を支援します。
関連論文リスト
- AsserT5: Test Assertion Generation Using a Fine-Tuned Code Language Model [8.995812770349602]
トレーニング済みのCodeT5モデルに基づく新しいモデルであるAsserT5を提案する。
焦点推定手法の抽象化と包含は、微調整された事前学習モデルにも有用であることがわかった。
論文 参考訳(メタデータ) (2025-02-04T20:42:22Z) - Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。
テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T23:02:26Z) - Bag of Lies: Robustness in Continuous Pre-training BERT [2.4850657856181946]
本研究の目的は、エンティティ知識に関するBERTの継続的な事前学習フェーズに関する洞察を得ることである。
BERTの事前トレーニングデータの最後の更新以来、このモデルは新型コロナウイルスに関するエンティティ知識をほとんど、あるいは全く持っていない。
ベースラインBERTモデルと,ファクトチェックベンチマークであるCheck-COVIDの事前学習版を比較した。
論文 参考訳(メタデータ) (2024-06-14T12:16:08Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Manual Evaluation Matters: Reviewing Test Protocols of Distantly
Supervised Relation Extraction [61.48964753725744]
2つのDS-REデータセット(NYT10とWiki20)に対して手動でアノテートしたテストセットを構築し、いくつかの競合モデルを徹底的に評価する。
その結果,手動による評価は,自動的な評価とは全く異なる結論を示すことがわかった。
論文 参考訳(メタデータ) (2021-05-20T06:55:40Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。