Fugu-MT 論文翻訳(概要): MiMiC: Minimally Modified Counterfactuals in the Representation Space

論文の概要: MiMiC: Minimally Modified Counterfactuals in the Representation Space

arxiv url: http://arxiv.org/abs/2402.09631v2
Date: Fri, 16 Feb 2024 12:22:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 12:40:23.660302
Title: MiMiC: Minimally Modified Counterfactuals in the Representation Space
Title（参考訳）: MiMiC:表現空間における最小限の変更
Authors: Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru
Abstract要約: 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。本稿では,表現空間における表現的反事実を生成するための新しい介入手法を提案する。提案手法は多クラス分類におけるバイアス軽減と有害言語の発生抑制に有効であることを示す。
参考スコア（独自算出の注目度）: 76.94255312690892
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models often exhibit undesirable behaviors, such as gender bias or toxic language. Interventions in the representation space were shown effective in mitigating such issues by altering the LM behavior. We first show that two prominent intervention techniques, Linear Erasure and Steering Vectors, do not enable a high degree of control and are limited in expressivity. We then propose a novel intervention methodology for generating expressive counterfactuals in the representation space, aiming to make representations of a source class (e.g., "toxic") resemble those of a target class (e.g., "non-toxic"). This approach, generalizing previous linear intervention techniques, utilizes a closed-form solution for the Earth Mover's problem under Gaussian assumptions and provides theoretical guarantees on the representation space's geometric organization. We further build on this technique and derive a nonlinear intervention that enables controlled generation. We demonstrate the effectiveness of the proposed approaches in mitigating bias in multiclass classification and in reducing the generation of toxic language, outperforming strong baselines.
Abstract（参考訳）: 言語モデルは、しばしば性バイアスや有害な言語のような望ましくない行動を示す。表現空間における介入は、LMの挙動を変化させることでそのような問題を緩和する効果を示した。まず, 線形消去法とステアリングベクトル法という2つの顕著な介入手法は, 高い制御性が得られず, 表現力に制限があることを示す。次に、表現空間における表現的反事実を生成するための新しい介入手法を提案し、ソースクラス(例えば「有害」)の表現を対象クラス(例えば「非毒性」)の表現に類似させることを目的とする。このアプローチは、以前の線形介入手法を一般化し、ガウスの仮定の下でのアース・ムーバー問題に対する閉形式解を活用し、表現空間の幾何学的構造に関する理論的保証を提供する。さらに, この手法を改良し, 制御された生成を可能にする非線形介入を導出する。提案手法は,多クラス分類におけるバイアス軽減と有毒言語生成の低減に有効であり,強力なベースラインを上回っている。

関連論文リスト

InjectRBP: Steering Large Language Model Reasoning Behavior via Pattern Injection [12.65760977924031]
推論は大規模言語モデルの性能を大幅に向上させることができる。モデルの推論行動は,行動パターンの観点から,どのように推論を形成するかを検討する。 InjectCorrect と InjectRLOpt の2つのパラメータ更新を必要としない最適化手法を提案する。
論文参考訳（メタデータ） (2026-02-12T14:44:40Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Counterfactual Generation from Language Models [64.55296662926919]
対実的推論が介入と概念的に異なることを示す。そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。我々の実験は、このアプローチが有意義な反事実を生み出すことを示した。
論文参考訳（メタデータ） (2024-11-11T17:57:30Z)
Inverse decision-making using neural amortized Bayesian actors [19.128377007314317]
我々は、教師なしの方法で幅広いパラメータ設定で訓練されたニューラルネットワークを用いてベイズアクターを記憶する。本稿では,本手法がモデル比較の原理と,先行とコストの識別不能につながる要因を解消するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2024-09-04T10:31:35Z)
Inverse Decision Modeling: Learning Interpretable Representations of Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。これを逆問題(記述モデルとして)の形式化に用います。この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文参考訳（メタデータ） (2023-10-28T05:05:01Z)
Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2023-09-30T20:59:42Z)
Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文参考訳（メタデータ） (2023-09-22T04:57:10Z)
Probabilistic inverse optimal control for non-linear partially observable systems disentangles perceptual uncertainty and behavioral costs [33.690374799743076]
本研究では,観測不能な動作信号を持つ非線形系の逆最適制御に対する確率論的アプローチを提案する。我々は,神経科学と実践的行動が不確実性の下でのシーケンシャルな意思決定に絡み合っているにもかかわらず,知覚的要因や行動的コストを解消できることを示す。
論文参考訳（メタデータ） (2023-03-29T13:51:06Z)
NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文参考訳（メタデータ） (2022-11-08T16:37:34Z)
A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文参考訳（メタデータ） (2022-02-13T21:46:14Z)
On the Transferability of Adversarial Attacksagainst Neural Text Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文参考訳（メタデータ） (2020-11-17T10:45:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。