論文の概要: Improving Few-shot Generalization of Safety Classifiers via Data
Augmented Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2310.16959v1
- Date: Wed, 25 Oct 2023 19:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:36:16.123466
- Title: Improving Few-shot Generalization of Safety Classifiers via Data
Augmented Parameter-Efficient Fine-Tuning
- Title(参考訳): データ拡張パラメータ効率向上型微調整による安全分類器の少数ショット一般化
- Authors: Ananth Balashankar, Xiao Ma, Aradhana Sinha, Ahmad Beirami, Yao Qin,
Jilin Chen, Alex Beutel
- Abstract要約: テキスト安全分類器のための領域一般化型少ショット学習の新たな設定について検討する。
この設定では、既存の少数ショット技術がうまく機能しないことを示す。
本稿では,パラメータ効率のよい微調整(PEFT)と,既存のルールと同様の例に基づくトレーニングデータの統合を提案する。
- 参考スコア(独自算出の注目度): 28.418432861091137
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are widely adopted, new safety issues and
policies emerge, to which existing safety classifiers do not generalize well.
If we have only observed a few examples of violations of a new safety rule, how
can we build a classifier to detect violations? In this paper, we study the
novel setting of domain-generalized few-shot learning for LLM-based text safety
classifiers. Unlike prior few-shot work, these new safety issues can be hard to
uncover and we do not get to choose the few examples. We demonstrate that
existing few-shot techniques do not perform well in this setting, and rather we
propose to do parameter-efficient fine-tuning (PEFT) combined with augmenting
training data based on similar examples in prior existing rules. We empirically
show that our approach of similarity-based data-augmentation + prompt-tuning
(DAPT) consistently outperforms baselines that either do not rely on data
augmentation or on PEFT by 7-17% F1 score in the Social Chemistry moral
judgement and 9-13% AUC in the Toxicity detection tasks, even when the new rule
is loosely correlated with existing ones.
- Abstract(参考訳): 大規模言語モデル(llm)が広く採用されると、既存の安全分類器がうまく一般化しない新しい安全問題やポリシーが出現する。
新しい安全規則違反の例を少ししか見ていないなら、違反を検知する分類器をどうやって構築すればよいのか?
本稿では,LLMを用いたテキスト安全分類器におけるドメイン一般化型少ショット学習の新たな設定について検討する。
以前の少数の作業とは異なり、これらの新しい安全性の問題を明らかにするのが難しく、いくつかの例を選択することはできません。
そこで本研究では,本手法では既存手法がうまく機能しないことを実証し,従来のルールの類似例に基づくトレーニングデータの拡張と組み合わせて,パラメータ効率の良い微調整(peft)を行うことを提案する。
類似性に基づくデータ拡張+プロンプトチューニング(DAPT)のアプローチは、既存のルールと緩やかに相関している場合でも、社会化学の道徳的判断において、データ拡張またはPEFTに7-17%のF1スコア、およびToxicity検出タスクにおいて9-13%のAUCに依存しないベースラインを一貫して上回っていることを実証的に示す。
関連論文リスト
- Debiasing Text Safety Classifiers through a Fairness-Aware Ensemble [2.1450827490014865]
クローズドソーステキストセーフティ分類器における対実フェアネスを緩和する軽量後処理法を提案する。
モデルの有効性を評価するためのしきい値に依存しない2つの指標を導入し、これらの指標をFDW(Fair Data Reweighting)と組み合わせることでバイアスを軽減できることを示す。
提案手法は, モデル性能に最小限の影響を伴って, 対実的公正性の向上を図っている。
論文 参考訳(メタデータ) (2024-09-05T14:35:35Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Text generation for dataset augmentation in security classification
tasks [55.70844429868403]
本研究では、複数のセキュリティ関連テキスト分類タスクにおいて、このデータギャップを埋めるための自然言語テキストジェネレータの適用性を評価する。
我々は,GPT-3データ拡張戦略において,既知の正のクラスサンプルに厳しい制約がある状況において,大きなメリットを見出した。
論文 参考訳(メタデータ) (2023-10-22T22:25:14Z) - Fine-tuning Aligned Language Models Compromises Safety, Even When Users
Do Not Intend To! [88.90694413503614]
LLMの安全性は微調整によって損なわれる可能性がある。
我々は、GPT-3.5の安全ガードレールを10種類の例で微調整することで、脱獄した。
我々は、協調LLMのカスタム微調整のための安全プロトコルの強化に向けたさらなる研究を提唱する。
論文 参考訳(メタデータ) (2023-10-05T17:12:17Z) - New Insights on Reducing Abrupt Representation Change in Online
Continual Learning [69.05515249097208]
我々は、以前に観測されていないクラスが入ってくるデータストリームに現れるときに発生する観測データの表現の変化に焦点を当てる。
Experience Replayを適用すると、新たに追加されたクラスの表現が以前のクラスと大幅に重複することを示します。
本稿では,新しいクラスに対応するために,学習した表現を劇的な適応から保護することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T01:37:00Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Unsupervised Data Augmentation with Naive Augmentation and without
Unlabeled Data [40.82826366059613]
Unsupervised Data Augmentation (UDA) は、モデルの予測の違いを解析するために一貫性損失を適用する半教師付き手法である。
本稿では,UDAを再検討し,その有効性を示す。
一貫性の喪失を適用することで、ラベルのないデータなしで有意義な利益が得られることが分かりました。
論文 参考訳(メタデータ) (2020-10-22T18:01:51Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。