論文の概要: MiMiC: Minimally Modified Counterfactuals in the Representation Space
- arxiv url: http://arxiv.org/abs/2402.09631v2
- Date: Fri, 16 Feb 2024 12:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 12:40:23.660302
- Title: MiMiC: Minimally Modified Counterfactuals in the Representation Space
- Title(参考訳): MiMiC:表現空間における最小限の変更
- Authors: Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan
Cotterell, Ponnurangam Kumaraguru
- Abstract要約: 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
本稿では,表現空間における表現的反事実を生成するための新しい介入手法を提案する。
提案手法は多クラス分類におけるバイアス軽減と有害言語の発生抑制に有効であることを示す。
- 参考スコア(独自算出の注目度): 76.94255312690892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often exhibit undesirable behaviors, such as gender bias or
toxic language. Interventions in the representation space were shown effective
in mitigating such issues by altering the LM behavior. We first show that two
prominent intervention techniques, Linear Erasure and Steering Vectors, do not
enable a high degree of control and are limited in expressivity.
We then propose a novel intervention methodology for generating expressive
counterfactuals in the representation space, aiming to make representations of
a source class (e.g., "toxic") resemble those of a target class (e.g.,
"non-toxic"). This approach, generalizing previous linear intervention
techniques, utilizes a closed-form solution for the Earth Mover's problem under
Gaussian assumptions and provides theoretical guarantees on the representation
space's geometric organization. We further build on this technique and derive a
nonlinear intervention that enables controlled generation. We demonstrate the
effectiveness of the proposed approaches in mitigating bias in multiclass
classification and in reducing the generation of toxic language, outperforming
strong baselines.
- Abstract(参考訳): 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
表現空間における介入は、LMの挙動を変化させることでそのような問題を緩和する効果を示した。
まず, 線形消去法とステアリングベクトル法という2つの顕著な介入手法は, 高い制御性が得られず, 表現力に制限があることを示す。
次に、表現空間における表現的反事実を生成するための新しい介入手法を提案し、ソースクラス(例えば「有害」)の表現を対象クラス(例えば「非毒性」)の表現に類似させることを目的とする。
このアプローチは、以前の線形介入手法を一般化し、ガウスの仮定の下でのアース・ムーバー問題に対する閉形式解を活用し、表現空間の幾何学的構造に関する理論的保証を提供する。
さらに, この手法を改良し, 制御された生成を可能にする非線形介入を導出する。
提案手法は,多クラス分類におけるバイアス軽減と有毒言語生成の低減に有効であり,強力なベースラインを上回っている。
関連論文リスト
- What Changed? Converting Representational Interventions to Natural
Language [116.87322784046926]
言語モデル(LM)の表現空間をターゲットとした介入は、モデル行動に影響を与える効果的な手段として現れてきた。
表現空間の反ファクトを自然言語の反ファクトに変換することができることを示す。
論文 参考訳(メタデータ) (2024-02-17T18:12:02Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。
本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。
4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T01:57:36Z) - Towards the Semantic Weak Generalization Problem in Generative Zero-Shot
Learning: Ante-hoc and Post-hoc [89.68803484284408]
生成ゼロショット学習(ZSL)の性能上限を制限した未探索要素を簡易かつ効果的に削減する戦略を提案する。
まず、意味的一般化を正式に定義し、その後、意味的弱一般化問題を減らそうとするアプローチを検討する。
アンテホック相では、ジェネレータのセマンティック入力を増強し、ジェネレータの適合ターゲットを緩和する。
論文 参考訳(メタデータ) (2022-04-24T13:54:42Z) - Linear Adversarial Concept Erasure [98.14246446690282]
与えられた概念に対応する線形部分空間の同定と消去の問題を定式化する。
我々は、この問題を制約付き線形ミニマックスゲームとしてモデル化し、既存のソリューションが一般にこのタスクに最適でないことを示す。
線形であるにもかかわらず、この手法は、トラクタビリティと解釈可能性を維持しつつ、深い非線形分類器のバイアスを効果的に軽減することを示す。
論文 参考訳(メタデータ) (2022-01-28T13:00:17Z) - Exploiting a Joint Embedding Space for Generalized Zero-Shot Semantic
Segmentation [25.070027668717422]
一般化ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、見えないクラスと見えないクラスのピクセルワイズセマンティックラベルを予測する。
ほとんどのGZS3メソッドは、対応するセマンティックなクラスから見えないクラスの視覚的特徴を合成する生成的アプローチを採用している。
統一されたフレームワークにおける制限に対処するための差別的アプローチを提案する。
論文 参考訳(メタデータ) (2021-08-14T13:33:58Z) - MCDAL: Maximum Classifier Discrepancy for Active Learning [74.73133545019877]
近年の最先端のアクティブラーニング手法は, 主にGAN(Generative Adversarial Networks)をサンプル取得に活用している。
本稿では,MCDAL(Maximum Discrepancy for Active Learning)と呼ぶ新しいアクティブラーニングフレームワークを提案する。
特に,両者の差分を最大化することにより,より厳密な決定境界を学習する2つの補助的分類層を利用する。
論文 参考訳(メタデータ) (2021-07-23T06:57:08Z) - Query-Free Adversarial Transfer via Undertrained Surrogates [14.112444998191698]
本研究では,ブラックボックス環境における敵攻撃の有効性を改善するための新しい手法を提案する。
本稿では, この手法がアーキテクチャ全体にわたって良好に伝達し, 最先端の手法よりも広いマージンで性能を向上することを示す。
論文 参考訳(メタデータ) (2020-07-01T23:12:22Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。