論文の概要: Revisiting Few-sample BERT Fine-tuning
- arxiv url: http://arxiv.org/abs/2006.05987v3
- Date: Thu, 11 Mar 2021 17:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 04:11:21.083839
- Title: Revisiting Few-sample BERT Fine-tuning
- Title(参考訳): 少数サンプルBERTファインチューニングの再検討
- Authors: Tianyi Zhang, Felix Wu, Arzoo Katiyar, Kilian Q. Weinberger, Yoav
Artzi
- Abstract要約: 本稿では,BERTの文脈表現の微調整について述べる。
私たちはこの不安定を引き起こすいくつかの要因を特定します。
近年,BERTを用いた小サンプル微調整の改良手法が提案されている。
- 参考スコア(独自算出の注目度): 46.898445984766894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is a study of fine-tuning of BERT contextual representations, with
focus on commonly observed instabilities in few-sample scenarios. We identify
several factors that cause this instability: the common use of a non-standard
optimization method with biased gradient estimation; the limited applicability
of significant parts of the BERT network for down-stream tasks; and the
prevalent practice of using a pre-determined, and small number of training
iterations. We empirically test the impact of these factors, and identify
alternative practices that resolve the commonly observed instability of the
process. In light of these observations, we re-visit recently proposed methods
to improve few-sample fine-tuning with BERT and re-evaluate their
effectiveness. Generally, we observe the impact of these methods diminishes
significantly with our modified process.
- Abstract(参考訳): 本稿では, bert文脈表現の微調整について検討し, 少数のシナリオにおいて一般に観測される不安定性に着目した。
この不安定性の原因となる要因として,バイアス勾配推定を用いた非標準最適化手法の共通利用,下流タスクに対するBERTネットワークの重要な部分の限定適用性,事前決定および少数のトレーニングイテレーションの使用が一般的である。
これらの要因の影響を実証的に検証し、一般的に観察されるプロセスの不安定性を解決するための代替手法を同定する。
これらの観測から, BERTによる小サンプル微調整の改善と, その有効性を再評価する手法を最近再検討した。
一般的に,修正プロセスによってこれらの手法の影響は著しく減少する。
関連論文リスト
- Targeted Learning for Variable Importance [23.428985354228672]
変数の重要性は、機械学習を解釈するための最も広く使われている手段の1つです。
本稿では,変数重要度に対する推論の堅牢性を高めるために,ターゲット学習(TL)フレームワークを用いた新しい手法を提案する。
i) 従来の手法の効率を保ち, (ii) 計算量に匹敵する複雑性を維持し, (iii) 精度を向上し, 特に有限サンプル文脈において有効であることを示す。
論文 参考訳(メタデータ) (2024-11-04T16:14:45Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Unraveling Batch Normalization for Realistic Test-Time Adaptation [22.126177142716188]
本稿では,ミニバッチ劣化問題について考察する。
バッチ正規化を解き放つことにより、不正確なターゲット統計は、バッチのクラス多様性が大幅に減少することに起因することが判明した。
テスト時間指数移動平均(TEMA)という簡単なツールを導入し、トレーニングとテストバッチ間のクラス多様性のギャップを埋める。
論文 参考訳(メタデータ) (2023-12-15T01:52:35Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Revisiting Methods for Finding Influential Examples [2.094022863940315]
テスト時間決定に有効なトレーニング例を見つける方法が提案されている。
本稿では,これらの手法がすべて不安定であることを示す。
本稿では, 毒素攻撃を検知する能力によって, このような説明を評価することを提案する。
論文 参考訳(メタデータ) (2021-11-08T18:00:06Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Re-Assessing the "Classify and Count" Quantification Method [88.60021378715636]
分類とカウント(CC)は、しばしば偏りのある推定器である。
以前の作業では、CCの適切に最適化されたバージョンを適切に使用できなかった。
最先端の手法に劣っているものの、ほぼ最先端の精度を実現している、と我々は主張する。
論文 参考訳(メタデータ) (2020-11-04T21:47:39Z) - A One-step Approach to Covariate Shift Adaptation [82.01909503235385]
多くの機械学習シナリオにおけるデフォルトの前提は、トレーニングとテストサンプルは同じ確率分布から引き出されることである。
予測モデルと関連する重みを1つの最適化で共同で学習する新しいワンステップアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-08T11:35:47Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。