論文の概要: MiMiC: Minimally Modified Counterfactuals in the Representation Space
- arxiv url: http://arxiv.org/abs/2402.09631v1
- Date: Thu, 15 Feb 2024 00:20:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:28:15.223650
- Title: MiMiC: Minimally Modified Counterfactuals in the Representation Space
- Title(参考訳): MiMiC:表現空間における最小限の変更
- Authors: Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan
Cotterell, Ponnurangam Kumaraguru
- Abstract要約: 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
本稿では,表現空間における表現的反事実を生成するための新しい介入手法を提案する。
提案手法は多クラス分類におけるバイアス軽減と有害言語の発生抑制に有効であることを示す。
- 参考スコア(独自算出の注目度): 76.94255312690892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often exhibit undesirable behaviors, such as gender bias or
toxic language. Interventions in the representation space were shown effective
in mitigating such issues by altering the LM behavior. We first show that two
prominent intervention techniques, Linear Erasure and Steering Vectors, do not
enable a high degree of control and are limited in expressivity.
We then propose a novel intervention methodology for generating expressive
counterfactuals in the representation space, aiming to make representations of
a source class (e.g., ``toxic'') resemble those of a target class (e.g.,
``non-toxic''). This approach, generalizing previous linear intervention
techniques, utilizes a closed-form solution for the Earth Mover's problem under
Gaussian assumptions and provides theoretical guarantees on the representation
space's geometric organization. We further build on this technique and derive a
nonlinear intervention that enables controlled generation. We demonstrate the
effectiveness of the proposed approaches in mitigating bias in multiclass
classification and in reducing the generation of toxic language, outperforming
strong baselines.
- Abstract(参考訳): 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。
表現空間における介入は、LMの挙動を変化させることでそのような問題を緩和する効果を示した。
まず, 線形消去法とステアリングベクトル法という2つの顕著な介入手法は, 高い制御性が得られず, 表現力に制限があることを示す。
次に,表現空間において表現的反事実を生成するための新しい介入手法を提案し,対象クラスの表現(例えば「毒性」)を対象クラスの表現と類似させる(例えば「非毒性」)。
このアプローチは、以前の線形介入手法を一般化し、ガウスの仮定の下でのアース・ムーバー問題に対する閉形式解を活用し、表現空間の幾何学的構造に関する理論的保証を提供する。
さらに, この手法を改良し, 制御された生成を可能にする非線形介入を導出する。
提案手法は,多クラス分類におけるバイアス軽減と有毒言語生成の低減に有効であり,強力なベースラインを上回っている。
関連論文リスト
- Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文 参考訳(メタデータ) (2024-11-11T17:57:30Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Probabilistic inverse optimal control for non-linear partially
observable systems disentangles perceptual uncertainty and behavioral costs [33.690374799743076]
本研究では,観測不能な動作信号を持つ非線形系の逆最適制御に対する確率論的アプローチを提案する。
我々は,神経科学と実践的行動が不確実性の下でのシーケンシャルな意思決定に絡み合っているにもかかわらず,知覚的要因や行動的コストを解消できることを示す。
論文 参考訳(メタデータ) (2023-03-29T13:51:06Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。