論文の概要: CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation
- arxiv url: http://arxiv.org/abs/2306.00374v1
- Date: Thu, 1 Jun 2023 06:13:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:01:15.076524
- Title: CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation
- Title(参考訳): CFL:Token-level Attribute Controled Generationによる因果フェア言語モデル
- Authors: Rahul Madhavan, Rishabh Garg, Kahini Wadhawan and Sameep Mehta
- Abstract要約: 本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 5.210143170392524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to control the attributes of Language Models (LMs) for
the text generation task using Causal Average Treatment Effect (ATE) scores and
counterfactual augmentation. We explore this method, in the context of LM
detoxification, and propose the Causally Fair Language (CFL) architecture for
detoxifying pre-trained LMs in a plug-and-play manner. Our architecture is
based on a Structural Causal Model (SCM) that is mathematically transparent and
computationally efficient as compared with many existing detoxification
techniques. We also propose several new metrics that aim to better understand
the behaviour of LMs in the context of toxic text generation. Further, we
achieve state of the art performance for toxic degeneration, which are computed
using \RTP (RTP) benchmark. Our experiments show that CFL achieves such a
detoxification without much impact on the model perplexity. We also show that
CFL mitigates the unintended bias problem through experiments on the BOLD
dataset.
- Abstract(参考訳): 本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL)アーキテクチャを提案する。
我々のアーキテクチャは構造因果モデル(scm)に基づいており、既存の多くのデトキシフィケーション技術と比較して数学的に透明で計算効率が高い。
また、有害テキスト生成の文脈において、LMの振る舞いをよりよく理解するための新しい指標をいくつか提案する。
さらに, RTP (RTP) ベンチマークを用いて, 有毒な変性を予測し, 評価した。
実験の結果,CFLはモデルパープレキシティに大きな影響を与えずに,このような解毒を行うことがわかった。
また, BOLDデータセットを用いた実験により, CFLは意図しないバイアス問題を緩和することを示した。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large
Language Models [55.8717261687206]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - CMD: a framework for Context-aware Model self-Detoxification [25.02108563221933]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。
我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。
本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-03-06T23:55:12Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - Understanding and Improving Lexical Choice in Non-Autoregressive
Translation [98.11249019844281]
低周波ワードの有用な情報を復元するために、生データをNATモデルに公開することを提案する。
提案手法は,WMT14英語-ドイツ語とWMT16ルーマニア英語-英語データセットのSOTA NAT性能を27.8BLEU点,33.8BLEU点まで向上させる。
論文 参考訳(メタデータ) (2020-12-29T03:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。