論文の概要: Representation Surgery: Theory and Practice of Affine Steering
- arxiv url: http://arxiv.org/abs/2402.09631v5
- Date: Tue, 25 Jun 2024 13:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 20:28:47.671712
- Title: Representation Surgery: Theory and Practice of Affine Steering
- Title(参考訳): 表現外科:アフィンステアリングの理論と実践
- Authors: Shashwat Singh, Shauli Ravfogel, Jonathan Herzig, Roee Aharoni, Ryan Cotterell, Ponnurangam Kumaraguru,
- Abstract要約: 言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
- 参考スコア(独自算出の注目度): 72.61363182652853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often exhibit undesirable behavior, e.g., generating toxic or gender-biased text. In the case of neural language models, an encoding of the undesirable behavior is often present in the model's representations. Thus, one natural (and common) approach to prevent the model from exhibiting undesirable behavior is to steer the model's representations in a manner that reduces the probability of it generating undesirable text. This paper investigates the formal and empirical properties of steering functions, i.e., transformation of the neural language model's representations that alter its behavior. First, we derive two optimal, in the least-squares sense, affine steering functions under different constraints. Our theory provides justification for existing approaches and offers a novel, improved steering approach. Second, we offer a series of experiments that demonstrate the empirical effectiveness of the methods in mitigating bias and reducing toxic generation.
- Abstract(参考訳): 言語モデルは、しばしば好ましくない振る舞いを示し、例えば、有毒または性別に偏ったテキストを生成する。
ニューラルネットワークモデルの場合、望ましくない振る舞いの符号化がモデルの表現にしばしば存在する。
したがって、モデルが望ましくない振る舞いを示すのを防ぐ自然な(そして一般的な)アプローチは、望ましくないテキストを生成する確率を減らす方法でモデルの表現を操ることである。
本稿では、ステアリング関数の形式的および経験的特性、すなわち、その振る舞いを変えるニューラルネットワークモデルの表現の変換について検討する。
まず、最小二乗の意味で、異なる制約の下でのアフィンステアリング関数を最適に2つ導き出す。
我々の理論は既存のアプローチを正当化し、新しく改良されたステアリングアプローチを提供する。
第2に、偏りを緩和し、毒性の発生を減らす方法の実証的な効果を実証する一連の実験を提供する。
関連論文リスト
- Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Learning to Diversify Neural Text Generation via Degenerative Model [39.961572541752005]
本稿では, 2つのモデルをトレーニングすることで, 再生不良を防止する新しい手法を提案する。
まず、望ましくないパターンを増幅するように設計されたモデルをトレーニングします。
次に、第1のモデルが学べないパターンに注目して、第2のモデルの多様性を高めます。
論文 参考訳(メタデータ) (2023-09-22T04:57:10Z) - Probabilistic inverse optimal control for non-linear partially
observable systems disentangles perceptual uncertainty and behavioral costs [33.690374799743076]
本研究では,観測不能な動作信号を持つ非線形系の逆最適制御に対する確率論的アプローチを提案する。
我々は,神経科学と実践的行動が不確実性の下でのシーケンシャルな意思決定に絡み合っているにもかかわらず,知覚的要因や行動的コストを解消できることを示す。
論文 参考訳(メタデータ) (2023-03-29T13:51:06Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - A Contrastive Framework for Neural Text Generation [46.845997620234265]
モデル変性の根底にある理由はトークン表現の異方性分布であることを示す。
モデル表現空間を校正するための対照的な学習目標であるSimCTGと,生成したテキストのコヒーレンスを維持しつつ多様性を高めるためのデコード手法であるコントラスト検索を提案する。
論文 参考訳(メタデータ) (2022-02-13T21:46:14Z) - Distilling Interpretable Models into Human-Readable Code [71.11328360614479]
人間可読性は機械学習モデル解釈可能性にとって重要で望ましい標準である。
従来の方法を用いて解釈可能なモデルを訓練し,それを簡潔で可読なコードに抽出する。
本稿では,幅広いユースケースで効率的に,確実に高品質な結果を生成する分別線形曲線フィッティングアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2021-01-21T01:46:36Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。