Fugu-MT 論文翻訳(概要): Let the Models Respond: Interpreting Language Model Detoxification Through the Lens of Prompt Dependence

論文の概要: Let the Models Respond: Interpreting Language Model Detoxification Through the Lens of Prompt Dependence

arxiv url: http://arxiv.org/abs/2309.00751v1
Date: Fri, 1 Sep 2023 22:26:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 01:27:43.840526
Title: Let the Models Respond: Interpreting Language Model Detoxification Through the Lens of Prompt Dependence
Title（参考訳）: モデルに応答する:プロンプト依存のレンズを通して言語モデルの解毒を解釈する
Authors: Daniel Scalena, Gabriele Sarti, Malvina Nissim, Elisabetta Fersini
Abstract要約: いくつかの言語モデルに一般的な解毒アプローチを適用し、その結果のモデルの素早い依存に対する影響を定量化する。反物語的微調整の有効性を評価し,それを強化学習による解毒法と比較した。
参考スコア（独自算出の注目度）: 15.084940396969
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Due to language models' propensity to generate toxic or hateful responses, several techniques were developed to align model generations with users' preferences. Despite the effectiveness of such methods in improving the safety of model interactions, their impact on models' internal processes is still poorly understood. In this work, we apply popular detoxification approaches to several language models and quantify their impact on the resulting models' prompt dependence using feature attribution methods. We evaluate the effectiveness of counter-narrative fine-tuning and compare it with reinforcement learning-driven detoxification, observing differences in prompt reliance between the two methods despite their similar detoxification performances.
Abstract（参考訳）: 言語モデルが有害またはヘイトフルな応答を生成する傾向のため、モデル世代をユーザの好みに合わせるためにいくつかの技術が開発された。このような手法がモデル相互作用の安全性向上に有効であるにもかかわらず、モデルの内部プロセスへの影響はいまだに理解されていない。本研究では,いくつかの言語モデルに対して一般的な解毒法を適用し,特徴属性法を用いて得られたモデルの素早い依存に対する影響を定量化する。逆ナレーションの微調整の有効性を評価し,強化学習によるデトキシフィケーションと比較し,同様のデトキシフィケーション性能にも拘わらず,両者の即応性の違いを観察した。

関連論文リスト

The effect of fine-tuning on language model toxicity [7.539523407936451]
オープンモデルの普及に伴い、微調整言語モデルの人気が高まっている。我々は、微調整が異なるオープンモデルの有害なコンテンツを出力する確率にどのように影響するかを評価する。低ランク適応による開発者の調整モデル上でのパラメータ効率の微調整は,これらの結果を大きく変更できることを示す。
論文参考訳（メタデータ） (2024-10-21T09:39:09Z)
Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文参考訳（メタデータ） (2024-02-15T00:20:30Z)
Diffusion of Thoughts: Chain-of-Thought Reasoning in Diffusion Language Models [100.53662473219806]
Diffusion-of-Thought (DoT) は、拡散モデルとChain-of-Thoughtを統合する新しいアプローチである。 DoTは、拡散言語モデルを通じて、時間とともに推論ステップが拡散することを可能にする。本研究は,多桁乗算,論理学,小学校数学におけるDoTの有効性を示すものである。
論文参考訳（メタデータ） (2024-02-12T16:23:28Z)
Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文参考訳（メタデータ） (2024-01-22T16:25:27Z)
Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文参考訳（メタデータ） (2023-11-15T02:59:10Z)
On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文参考訳（メタデータ） (2023-11-14T00:43:33Z)
CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。既存の解毒法では、解毒効果と生成品質のバランスが取れない。文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文参考訳（メタデータ） (2023-08-16T11:50:38Z)
Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文参考訳（メタデータ） (2022-10-28T14:38:50Z)
Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文参考訳（メタデータ） (2022-04-30T18:25:18Z)
Reward Modeling for Mitigating Toxicity in Transformer-based Language Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文参考訳（メタデータ） (2022-02-19T19:26:22Z)
ToxCCIn: Toxic Content Classification with Interpretability [16.153683223016973]
ソーシャルメディア上での攻撃言語や毒性検出などのタスクには説明が重要です。単純かつ強力な仮定に基づき,トランスモデルの解釈性を改善する手法を提案する。このアプローチは,ロジスティック回帰分析によって提供されるものの品質を超える説明を生成できる。
論文参考訳（メタデータ） (2021-03-01T22:17:10Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。