論文の概要: How Emotionally Stable is ALBERT? Testing Robustness with Stochastic
Weight Averaging on a Sentiment Analysis Task
- arxiv url: http://arxiv.org/abs/2111.09612v1
- Date: Thu, 18 Nov 2021 10:39:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 20:13:46.461818
- Title: How Emotionally Stable is ALBERT? Testing Robustness with Stochastic
Weight Averaging on a Sentiment Analysis Task
- Title(参考訳): ALBERTはどんな感情的安定か?
感性分析課題における確率重み平均化によるロバストネスの検証
- Authors: Urja Khurana, Eric Nalisnick, Antske Fokkens
- Abstract要約: ALBERT(arXiv:1909.1)とSWA(Weight Averaging)の併用によるロバスト性について検討する。
チェックリスト基準によるSWAの安定性の解析(arXiv:2005.04118)
SWAは一般的にエラー率を低下させるが、モデルは相変わらず独自のバイアスに悩まされている。
- 参考スコア(独自算出の注目度): 0.9729794403682002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their success, modern language models are fragile. Even small changes
in their training pipeline can lead to unexpected results. We study this
phenomenon by examining the robustness of ALBERT (arXiv:1909.11942) in
combination with Stochastic Weight Averaging (SWA) (arXiv:1803.05407) -- a
cheap way of ensembling -- on a sentiment analysis task (SST-2). In particular,
we analyze SWA's stability via CheckList criteria (arXiv:2005.04118), examining
the agreement on errors made by models differing only in their random seed. We
hypothesize that SWA is more stable because it ensembles model snapshots taken
along the gradient descent trajectory. We quantify stability by comparing the
models' mistakes with Fleiss' Kappa (Fleiss, 1971) and overlap ratio scores. We
find that SWA reduces error rates in general; yet the models still suffer from
their own distinct biases (according to CheckList).
- Abstract(参考訳): 彼らの成功にもかかわらず、現代の言語モデルは脆弱です。
トレーニングパイプラインの小さな変更でも、予期しない結果につながる可能性がある。
感情分析タスク(sst-2)におけるalbert(arxiv:1909.11942)と確率的重量平均化(swa)(arxiv:1803.05407)のロバスト性について検討した。
特に,swaの安定性をチェックリストの基準(arxiv:2005.04118)で分析し,ランダムシードでのみ異なるモデルによる誤差の一致について検討した。
SWAは勾配降下軌道に沿って撮影されるモデルスナップショットをアンサンブルするため、より安定していると仮定する。
モデルの誤りをfleiss' kappa(fleiss, 1971)とオーバーラップ比スコアと比較することで安定性を定量化する。
SWAは一般的にエラー率を低下させるが、モデルはそれぞれ独自のバイアスを被っている(CheckListによると)。
関連論文リスト
- Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - Whispers of Doubt Amidst Echoes of Triumph in NLP Robustness [29.312873775442757]
a)ドメイン外のテストセットとチャレンジテストセット、(b)CheckListによる振る舞いテスト、(c)コントラストセット、(d)逆入力を用いて評価を行う。
我々はNLPにおけるロバスト性の問題が未解決であるだけでなく、ロバスト性を測定するアプローチも再評価する必要があると結論付けている。
論文 参考訳(メタデータ) (2023-11-16T09:09:32Z) - Certifying Ensembles: A General Certification Theory with
S-Lipschitzness [128.2881318211724]
組み立ては、一般化、不確実性推定、校正、コンセプトドリフトの効果の緩和に有用であることが示されている。
本研究では、S-Lipschitz分類器を導入し、アンサンブルの理論的堅牢性を分析することにより、リプシッツ連続性を一般化する。
論文 参考訳(メタデータ) (2023-04-25T17:50:45Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - Towards Stable Test-Time Adaptation in Dynamic Wild World [60.98073673220025]
テスト時間適応(TTA)は、与えられたモデルをテストサンプルに適応させることで、トレーニングとテストデータの分散シフトに取り組むのに有効であることが示されている。
TTAのオンラインモデル更新は不安定であり、これはしばしば既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
論文 参考訳(メタデータ) (2023-02-24T02:03:41Z) - Understanding the Impact of Adversarial Robustness on Accuracy Disparity [18.643495650734398]
対向ロバスト性の影響を2つの部分に分解する: 頑健性制約により全てのクラスで標準精度を低下させる固有の効果と、クラス不均衡比によって引き起こされる影響である。
以上の結果から,実世界のデータセットよりも非線形モデルに拡張できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-28T20:46:51Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z) - On the Stability of Fine-tuning BERT: Misconceptions, Explanations, and
Strong Baselines [31.807628937487927]
BERTのような微調整済みの言語モデルは、様々なNLPベンチマークでリーダーボードを独占する一般的なプラクティスとなっている。
以前の文献では、破滅的な忘れ物と微調整データセットの小さなサイズの2つの潜在的な原因が明らかになった。
どちらの仮説も微調整の不安定性を説明できないことを示す。
論文 参考訳(メタデータ) (2020-06-08T19:06:24Z) - The Curse of Performance Instability in Analysis Datasets: Consequences,
Source, and Suggestions [93.62888099134028]
自然言語推論(NLI)および読み込み(RC)解析/ストレスセットにおける最先端モデルの性能は極めて不安定であることがわかった。
このことは、(1)不安定さがこれらの分析セットに基づいて引き出された結論の信頼性にどのように影響するかという3つの疑問を提起する。
不安定の原因に関する理論的説明と実証的証拠の両方を提示する。
論文 参考訳(メタデータ) (2020-04-28T15:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。