論文の概要: Let the Models Respond: Interpreting Language Model Detoxification
Through the Lens of Prompt Dependence
- arxiv url: http://arxiv.org/abs/2309.00751v1
- Date: Fri, 1 Sep 2023 22:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:27:43.840526
- Title: Let the Models Respond: Interpreting Language Model Detoxification
Through the Lens of Prompt Dependence
- Title(参考訳): モデルに応答する:プロンプト依存のレンズを通して言語モデルの解毒を解釈する
- Authors: Daniel Scalena, Gabriele Sarti, Malvina Nissim, Elisabetta Fersini
- Abstract要約: いくつかの言語モデルに一般的な解毒アプローチを適用し、その結果のモデルの素早い依存に対する影響を定量化する。
反物語的微調整の有効性を評価し,それを強化学習による解毒法と比較した。
- 参考スコア(独自算出の注目度): 15.084940396969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to language models' propensity to generate toxic or hateful responses,
several techniques were developed to align model generations with users'
preferences. Despite the effectiveness of such methods in improving the safety
of model interactions, their impact on models' internal processes is still
poorly understood. In this work, we apply popular detoxification approaches to
several language models and quantify their impact on the resulting models'
prompt dependence using feature attribution methods. We evaluate the
effectiveness of counter-narrative fine-tuning and compare it with
reinforcement learning-driven detoxification, observing differences in prompt
reliance between the two methods despite their similar detoxification
performances.
- Abstract(参考訳): 言語モデルが有害またはヘイトフルな応答を生成する傾向のため、モデル世代をユーザの好みに合わせるためにいくつかの技術が開発された。
このような手法がモデル相互作用の安全性向上に有効であるにもかかわらず、モデルの内部プロセスへの影響はいまだに理解されていない。
本研究では,いくつかの言語モデルに対して一般的な解毒法を適用し,特徴属性法を用いて得られたモデルの素早い依存に対する影響を定量化する。
逆ナレーションの微調整の有効性を評価し,強化学習によるデトキシフィケーションと比較し,同様のデトキシフィケーション性能にも拘わらず,両者の即応性の違いを観察した。
関連論文リスト
- Revisiting Demonstration Selection Strategies in In-Context Learning [69.43198898396211]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Multi-Set Inoculation: Assessing Model Robustness Across Multiple
Challenge Sets [48.94926373895036]
本稿では,入力摂動が異なるスケールの言語モデルに与える影響を研究する枠組みを提案する。
一方の摂動への曝露が他の摂動に対するモデルの性能を向上させるか、劣化させるかを検討する。
提案手法は,与えられたデータセットの精度を損なうことなく,異なる摂動に頑健にモデルを訓練することを示す。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - N-Critics: Self-Refinement of Large Language Models with Ensemble of
Critics [5.516095889257118]
本稿では,大規模言語モデル(LLM)の自己補正機構を提案し,毒性や事実幻覚などの問題を緩和する。
この方法は、批評家とモデル自身のフィードバックのアンサンブルを通じてモデル出力を精査する。
論文 参考訳(メタデータ) (2023-10-28T11:22:22Z) - CMD: a framework for Context-aware Model self-Detoxification [25.02108563221933]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue
Response Generation Models by Causal Discovery [52.95935278819512]
本研究で得られたCGDIALOGコーパスに基づくオープンドメイン応答生成モデルのスプリアス相関に関する最初の研究を行った。
因果探索アルゴリズムに着想を得て,反応生成モデルの学習と推論のための新しいモデル非依存手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T06:33:48Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Text Detoxification using Large Pre-trained Neural Models [57.72086777177844]
テキスト中の毒性を除去する2つの新しい教師なし手法を提案する。
最初の方法は、生成プロセスのガイダンスと、小さなスタイル条件言語モデルを組み合わせることである。
第2の方法は、BERTを使用して有害な単語を非攻撃的同義語に置き換える。
論文 参考訳(メタデータ) (2021-09-18T11:55:32Z) - ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。
単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。
このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文 参考訳(メタデータ) (2021-03-01T22:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。