論文の概要: Applying SoftTriple Loss for Supervised Language Model Fine Tuning
- arxiv url: http://arxiv.org/abs/2112.08462v1
- Date: Wed, 15 Dec 2021 20:21:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 15:14:08.544071
- Title: Applying SoftTriple Loss for Supervised Language Model Fine Tuning
- Title(参考訳): 教師付き言語モデルファインチューニングのためのSoftTriple Lossの適用
- Authors: Witold Sosnowski, Anna Wroblewska and Piotr Gawrysiak
- Abstract要約: この損失関数は、クロスエントロピー損失(0.02% - 2.29%)で微調整されたロバータベースラインモデルを改善することができる。
トレーニングデータセットのサンプルが少ないほど、ゲインが高くなります -- そのため、小規模データセットでは0.78%、中規模データセットでは0.86%、大規模データセットでは0.20%、超大型データセットでは0.04%です。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new loss function TripleEntropy, to improve classification
performance for fine-tuning general knowledge pre-trained language models based
on cross-entropy and SoftTriple loss. This loss function can improve the robust
RoBERTa baseline model fine-tuned with cross-entropy loss by about (0.02% -
2.29%). Thorough tests on popular datasets indicate a steady gain. The fewer
samples in the training dataset, the higher gain -- thus, for small-sized
dataset it is 0.78%, for medium-sized -- 0.86% for large -- 0.20% and for
extra-large 0.04%.
- Abstract(参考訳): クロスエントロピーとソフトトリプルの損失に基づく学習済み言語モデルの分類性能を向上させるために,新たな損失関数TripleEntropyを導入する。
この損失関数は、クロスエントロピー損失で微調整されたロバータベースラインモデルを約0.02%2.29%改善することができる。
一般的なデータセットの詳細なテストは、着実に伸びていることを示している。
トレーニングデータセットのサンプルが少ないほど、利得は高く、小規模データセットでは 0.78%、中規模では 0.86%、大規模では 0.20%、超大規模では 0.04% である。
関連論文リスト
- Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - When hard negative sampling meets supervised contrastive learning [17.173114048398947]
我々は、微調整フェーズ中にハードネガティブサンプリングを組み込んだ新しい教師付きコントラスト学習目標であるSCHaNeを導入する。
SchaNeは、様々なベンチマークで、トップ1の精度で強いベースラインBEiT-3を上回っている。
提案手法は,ImageNet-1kのベースモデルに対して,86.14%の精度で新たな最先端技術を実現する。
論文 参考訳(メタデータ) (2023-08-28T20:30:10Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。
我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。
包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Distance Metric Learning Loss Functions in Few-Shot Scenarios of
Supervised Language Models Fine-Tuning [1.0323063834827415]
DML損失関数は、数ショットのシナリオで、RoBERTa-largeモデルの下流分類タスクのパフォーマンスを向上させることができる。
ソフトトリプル損失を用いて微調整したモデルでは、標準のカテゴリーのクロスエントロピー損失関数を持つモデルよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-11-28T10:05:58Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。