論文の概要: AD-DROP: Attribution-Driven Dropout for Robust Language Model
Fine-Tuning
- arxiv url: http://arxiv.org/abs/2210.05883v1
- Date: Wed, 12 Oct 2022 02:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:02:49.461767
- Title: AD-DROP: Attribution-Driven Dropout for Robust Language Model
Fine-Tuning
- Title(参考訳): AD-DROP:ロバスト言語モデルファインチューニングのための属性駆動型ドロップアウト
- Authors: Tao Yang, Jinghao Deng, Xiaojun Quan, Qifan Wang, Shaoliang Nie
- Abstract要約: 帰属スコアの低い注意点の低下はトレーニングを加速させ、過度な適合のリスクを増大させることが判明した。
微調整とAD-DROPを交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
- 参考スコア(独自算出の注目度): 24.028662731799127
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning large pre-trained language models on downstream tasks is apt to
suffer from overfitting when limited training data is available. While dropout
proves to be an effective antidote by randomly dropping a proportion of units,
existing research has not examined its effect on the self-attention mechanism.
In this paper, we investigate this problem through self-attention attribution
and find that dropping attention positions with low attribution scores can
accelerate training and increase the risk of overfitting. Motivated by this
observation, we propose Attribution-Driven Dropout (AD-DROP), which randomly
discards some high-attribution positions to encourage the model to make
predictions by relying more on low-attribution positions to reduce overfitting.
We also develop a cross-tuning strategy to alternate fine-tuning and AD-DROP to
avoid dropping high-attribution positions excessively. Extensive experiments on
various benchmarks show that AD-DROP yields consistent improvements over
baselines. Analysis further confirms that AD-DROP serves as a strategic
regularizer to prevent overfitting during fine-tuning.
- Abstract(参考訳): 下流タスクでトレーニング済みの大規模な言語モデルを微調整することは、限られたトレーニングデータが利用できる場合、過度に適合する傾向がある。
ドロップアウトは、ランダムに単位の比率を下げることによって効果的な解毒剤であることが証明されているが、既存の研究は自己保持機構に対する効果を検証していない。
本稿では, 自己帰属的帰属を通じてこの問題を調査し, 低帰属スコアの注意位置の低下がトレーニングを加速し, オーバーフィッティングのリスクを高めることを見出した。
そこで本研究では,高属性位置をランダムに破棄し,低属性位置に依存して過度な適合を抑えることによって予測を促進できるAttribution-Driven Dropout (AD-DROP)を提案する。
また,AD-DROPと微調整を交互に行うクロスチューニング戦略を開発し,高属性位置の過度な低下を回避する。
様々なベンチマーク実験により、AD-DROPはベースラインよりも一貫した改善をもたらすことが示された。
分析により、AD-DROPは微調整中の過適合を防ぐための戦略正則化器として機能することを確認する。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Improving Adversarial Training using Vulnerability-Aware Perturbation
Budget [7.430861908931903]
敵対的訓練(AT)は、敵対的攻撃に対するディープニューラルネットワーク(DNN)の堅牢性を効果的に改善する。
本稿では,AT の逆例に摂動境界を割り当てる簡易で安価な脆弱性認識型再重み付け関数を提案する。
実験の結果,提案手法は様々な攻撃に対してATアルゴリズムの頑健さを真に向上させることがわかった。
論文 参考訳(メタデータ) (2024-03-06T21:50:52Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Feature Separation and Recalibration for Adversarial Robustness [18.975320671203132]
本稿では,特徴分離と再校正という手法を提案する。
分離と再校正を通じて、より堅牢な機能マップのために、悪意のある非不正なアクティベーションを再校正する。
これにより、計算オーバーヘッドが小さいため、既存の敵の訓練手法の堅牢性は最大8.57%向上する。
論文 参考訳(メタデータ) (2023-03-24T07:43:57Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Domain Adaptation with Adversarial Training on Penultimate Activations [82.9977759320565]
教師なし領域適応(Unsupervised Domain Adaptation, UDA)の重要な目的は、ラベルなし対象データに対するモデル予測の信頼性を高めることである。
我々は,この戦略が,入力画像や中間特徴に対する敵対的訓練よりも予測信頼性を高める目的と,より効率的で相関性が高いことを示す。
論文 参考訳(メタデータ) (2022-08-26T19:50:46Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Boosting Unsupervised Domain Adaptation with Soft Pseudo-label and
Curriculum Learning [19.903568227077763]
教師なしドメイン適応(UDA)は、完全にラベル付けされたソースドメインからのデータを活用することにより、ラベル付けされていないターゲットドメインの分類性能を向上させる。
ソフトな擬似ラベル戦略を用いてモデル予測の欠陥を大幅に低減するモデルに依存しない2段階学習フレームワークを提案する。
第2段階では,2つのドメインの損失間の重み付けを適応的に制御するカリキュラム学習戦略を提案する。
論文 参考訳(メタデータ) (2021-12-03T14:47:32Z) - Robustified Domain Adaptation [13.14535125302501]
非教師付きドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインからラベル付きターゲットドメインへの知識伝達に広く使用される。
UDAにおける避けられないドメイン分布の偏りは、ターゲットドメインの堅牢性をモデル化するための重要な障壁である。
頑健な UDA モデルをトレーニングするための新しいクラス一貫性のないunsupervised Domain Adaptation (CURDA) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T22:21:54Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。