論文の概要: Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization
- arxiv url: http://arxiv.org/abs/2210.04492v2
- Date: Fri, 2 Jun 2023 04:13:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:45:35.438373
- Title: Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization
- Title(参考訳): 推論時間適応最適化による言語生成における統一的デトキサイゼーションとデバイアス
- Authors: Zonghan Yang, Xiaoyuan Yi, Peng Li, Yang Liu, Xing Xie
- Abstract要約: 事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
- 参考スコア(独自算出の注目度): 32.50246008433889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Warning: this paper contains model outputs exhibiting offensiveness and
biases. Recently pre-trained language models (PLMs) have prospered in various
natural language generation (NLG) tasks due to their ability to generate fairly
fluent text. Nevertheless, these models are observed to capture and reproduce
harmful contents in training corpora, typically toxic language and social
biases, raising severe moral issues. Prior works on ethical NLG tackle
detoxifying and debiasing separately, which is problematic since we find
debiased models still exhibit toxicity while detoxified ones even exacerbate
social biases. To address such a challenge, we propose the first unified
framework of detoxifying and debiasing called UDDIA, which jointly formalizes
these two problems as rectifying the output space. We theoretically interpret
our framework as learning a text distribution mixing weighted attributes.
Besides, UDDIA conducts adaptive optimization of only a few parameters during
decoding based on a parameter-efficient tuning schema without any training
data. This leads to minimal generation quality loss and improved rectification
performance with acceptable computational cost. Experimental results
demonstrate that compared to several strong baselines, UDDIA achieves debiasing
and detoxifying simultaneously and better balances efficiency and
effectiveness, taking a further step towards practical ethical NLG.
- Abstract(参考訳): 警告: 本論文は攻撃性とバイアスを示すモデル出力を含む。
近年,学習済みの言語モデル (PLM) は, 様々な自然言語生成(NLG)タスクにおいて, かなり流用なテキストを生成する能力に長けている。
それにもかかわらず、これらのモデルは、通常有毒な言語と社会的バイアスであるコーパスの訓練において有害なコンテンツを捕獲し、再現することが観察され、厳しい道徳的問題を引き起こしている。
倫理的NLGに関する以前の研究は、脱毒と脱湿を別々に取り組んだが、これは、脱酸したモデルが依然として毒性を示し、解毒したモデルが社会的バイアスをさらに悪化させることが問題である。
このような課題に対処するため,我々はuddiaと呼ばれるデトックス化・デバイアス化の最初の統一フレームワークを提案し,この2つの問題を出力空間の整流化として定式化する。
重み付き属性を混合したテキスト分布を学習するフレームワークを理論的に解釈する。
さらに、UDDIAは、トレーニングデータなしでパラメータ効率のよいチューニングスキーマに基づいて、デコード中に少数のパラメータのみを適応的に最適化する。
これにより、生成品質の損失が最小限に抑えられ、計算コストを許容して修正性能が向上する。
実験結果から, UDDIAは, いくつかの強いベースラインと比較して, 同時に脱ベン・消毒を達成し, 効率と効率のバランスを良くし, 実用的倫理的NLGへのさらなる一歩を踏み出した。
関連論文リスト
- Language Rectified Flow: Advancing Diffusion Language Generation with Probabilistic Flows [53.31856123113228]
本稿では,言語認識フロー (ours) を提案する。
本手法は, 標準確率流モデルの再構成に基づく。
実験およびアブレーション実験により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。
論文 参考訳(メタデータ) (2024-03-25T17:58:22Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Contrastive Perplexity for Controlled Generation: An Application in
Detoxifying Large Language Models [25.212449683397647]
本稿では,暗黙的な知識編集と制御されたテキスト生成のための微調整LDMのためのコントラスト学習目標の統合について検討する。
自己教師型でモデルのトレーニングを容易にするため,市販のLCMを用いてデータ生成のトレーニングを行う。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。