論文の概要: Let the Models Respond: Interpreting Language Model Detoxification
Through the Lens of Prompt Dependence
- arxiv url: http://arxiv.org/abs/2309.00751v1
- Date: Fri, 1 Sep 2023 22:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 01:27:43.840526
- Title: Let the Models Respond: Interpreting Language Model Detoxification
Through the Lens of Prompt Dependence
- Title(参考訳): モデルに応答する:プロンプト依存のレンズを通して言語モデルの解毒を解釈する
- Authors: Daniel Scalena, Gabriele Sarti, Malvina Nissim, Elisabetta Fersini
- Abstract要約: いくつかの言語モデルに一般的な解毒アプローチを適用し、その結果のモデルの素早い依存に対する影響を定量化する。
反物語的微調整の有効性を評価し,それを強化学習による解毒法と比較した。
- 参考スコア(独自算出の注目度): 15.084940396969
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to language models' propensity to generate toxic or hateful responses,
several techniques were developed to align model generations with users'
preferences. Despite the effectiveness of such methods in improving the safety
of model interactions, their impact on models' internal processes is still
poorly understood. In this work, we apply popular detoxification approaches to
several language models and quantify their impact on the resulting models'
prompt dependence using feature attribution methods. We evaluate the
effectiveness of counter-narrative fine-tuning and compare it with
reinforcement learning-driven detoxification, observing differences in prompt
reliance between the two methods despite their similar detoxification
performances.
- Abstract(参考訳): 言語モデルが有害またはヘイトフルな応答を生成する傾向のため、モデル世代をユーザの好みに合わせるためにいくつかの技術が開発された。
このような手法がモデル相互作用の安全性向上に有効であるにもかかわらず、モデルの内部プロセスへの影響はいまだに理解されていない。
本研究では,いくつかの言語モデルに対して一般的な解毒法を適用し,特徴属性法を用いて得られたモデルの素早い依存に対する影響を定量化する。
逆ナレーションの微調整の有効性を評価し,強化学習によるデトキシフィケーションと比較し,同様のデトキシフィケーション性能にも拘わらず,両者の即応性の違いを観察した。
関連論文リスト
- The effect of fine-tuning on language model toxicity [7.539523407936451]
オープンモデルの普及に伴い、微調整言語モデルの人気が高まっている。
我々は、微調整が異なるオープンモデルの有害なコンテンツを出力する確率にどのように影響するかを評価する。
低ランク適応による開発者の調整モデル上でのパラメータ効率の微調整は,これらの結果を大きく変更できることを示す。
論文 参考訳(メタデータ) (2024-10-21T09:39:09Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。
DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。
本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文 参考訳(メタデータ) (2024-02-12T16:23:28Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。