論文の概要: The effect of fine-tuning on language model toxicity
- arxiv url: http://arxiv.org/abs/2410.15821v1
- Date: Mon, 21 Oct 2024 09:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:38.869950
- Title: The effect of fine-tuning on language model toxicity
- Title(参考訳): 微調整が言語モデル毒性に及ぼす影響
- Authors: Will Hawkins, Brent Mittelstadt, Chris Russell,
- Abstract要約: オープンモデルの普及に伴い、微調整言語モデルの人気が高まっている。
我々は、微調整が異なるオープンモデルの有害なコンテンツを出力する確率にどのように影響するかを評価する。
低ランク適応による開発者の調整モデル上でのパラメータ効率の微調整は,これらの結果を大きく変更できることを示す。
- 参考スコア(独自算出の注目度): 7.539523407936451
- License:
- Abstract: Fine-tuning language models has become increasingly popular following the proliferation of open models and improvements in cost-effective parameter efficient fine-tuning. However, fine-tuning can influence model properties such as safety. We assess how fine-tuning can impact different open models' propensity to output toxic content. We assess the impacts of fine-tuning Gemma, Llama, and Phi models on toxicity through three experiments. We compare how toxicity is reduced by model developers during instruction-tuning. We show that small amounts of parameter-efficient fine-tuning on developer-tuned models via low-rank adaptation on a non-adversarial dataset can significantly alter these results across models. Finally, we highlight the impact of this in the wild, demonstrating how toxicity rates of models fine-tuned by community contributors can deviate in hard-to-predict ways.
- Abstract(参考訳): ファインチューニング言語モデルは、オープンモデルの普及と、コスト効率の良いパラメータ効率の良いファインチューニングの改善により、ますます人気が高まっている。
しかし、微調整は安全性などのモデル特性に影響を与える可能性がある。
我々は、微調整が異なるオープンモデルの有害なコンテンツを出力する確率にどのように影響するかを評価する。
3つの実験により, 微調整Gemma, Llama, Phiモデルが毒性に及ぼす影響について検討した。
モデル開発者による授業学習における毒性の低下について比較する。
我々は,非逆数データセット上での低ランク適応により,開発者の調整したモデル上でのパラメータ効率の微調整が,モデル間で有意に異なることを示す。
最後に、この影響を強調し、コミュニティのコントリビュータが微調整したモデルの毒性率が、予測しづらい方法でどのように低下するかを示す。
関連論文リスト
- Causal Fine-Tuning and Effect Calibration of Non-Causal Predictive Models [1.3124513975412255]
本稿では,無作為な実験データを用いた因果推論のための非因果モデルの性能向上手法を提案する。
広告、顧客の保持、精密医療のような領域では、介入なしの結果を予測する非因果モデルはしばしば、介入の期待された効果に応じて個人をスコアしランク付けするために使用される。
論文 参考訳(メタデータ) (2024-06-13T20:18:16Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Unfamiliar Finetuning Examples Control How Language Models Hallucinate [75.03210107477157]
大規模な言語モデルは、馴染みのないクエリに直面した時に幻覚化することが知られている。
モデルの微調整データの見慣れない例は、これらのエラーを形作るのに不可欠である。
本研究は,RLファインタニング戦略をさらに研究し,長大なモデル生成の現実性を改善することを目的とする。
論文 参考訳(メタデータ) (2024-03-08T18:28:13Z) - Let the Models Respond: Interpreting Language Model Detoxification
Through the Lens of Prompt Dependence [15.084940396969]
いくつかの言語モデルに一般的な解毒アプローチを適用し、その結果のモデルの素早い依存に対する影響を定量化する。
反物語的微調整の有効性を評価し,それを強化学習による解毒法と比較した。
論文 参考訳(メタデータ) (2023-09-01T22:26:06Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - A Three-regime Model of Network Pruning [47.92525418773768]
我々は、ニューラルネットワーク(NN)トレーニングのハイパーパラメータが刈り取り性能に与える影響をモデル化するために、温度のようなパラメータと負荷のようなパラメータを使用します。
プレプルーニングモデルにおける負荷様パラメータの値に依存すると、プレプルーニングモデルにおける温度様パラメータの値が増加するか、その後のプルーニング性能が向上または損なわれる可能性がある。
本モデルでは, 高温のダイコトモス効果は, ポストプランニングモデルにおいて, 異なるタイプの大域構造間の遷移と関係していることが明らかとなった。
論文 参考訳(メタデータ) (2023-05-28T08:09:25Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - Model Compression for Domain Adaptation through Causal Effect Estimation [20.842938440720303]
ATE誘導モデル圧縮スキーム(AMoC)は、除去されたモデルコンポーネントによって異なる多くのモデル候補を生成する。
次に、ATEを利用した段階的回帰モデルを用いて、最適候補を選択し、対象領域における期待性能を予測する。
AMoCは2つのテキスト分類タスクで60のドメインペアのうち46の強いベースラインより優れており、F1の平均的な改善は最強のベースラインより3%以上多い。
論文 参考訳(メタデータ) (2021-01-18T14:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。