論文の概要: Gumbel Counterfactual Generation From Language Models
- arxiv url: http://arxiv.org/abs/2411.07180v3
- Date: Fri, 13 Dec 2024 22:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:18.537749
- Title: Gumbel Counterfactual Generation From Language Models
- Title(参考訳): 言語モデルからガムベル対実生成
- Authors: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell,
- Abstract要約: 対実的推論が介入と概念的に異なることを示す。
そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。
提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
- 参考スコア(独自算出の注目度): 64.55296662926919
- License:
- Abstract: Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery -- e.g., model ablations or manipulation of linear subspaces tied to specific concepts -- to \emph{intervene} on these models. To understand the impact of interventions precisely, it is useful to examine counterfactuals -- e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl's causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as a structural equation model using the Gumbel-max trick, which we called Gumbel counterfactual generation. This reformulation allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.
- Abstract(参考訳): 言語モデルにおける因果生成機構の理解と操作は,それらの振る舞いを制御する上で不可欠である。
これまでの研究は主に、表現手術(例:モデルアブレーション)や特定の概念に結びついた線形部分空間の操作など)や、これらのモデルにおける 'emph{intervene} といった技術に依存してきた。
介入の影響を正確に理解するためには、ある文が特定の介入の後にモデルによって生成された場合、どのように出現したかなど、偽造品を調べるのが有用である。
パールの因果的階層に記述されているように,反事実的推論は概念的に介入と区別されている。
本稿では,Gumbel-max の手法を用いて言語モデルを構造方程式モデルとして再構成し,真弦の反事実を生成するフレームワークを提案する。
この再構成により、サンプリングノイズの同一のインスタンス化により、原弦上の結合分布とその反事実をモデル化することができる。
我々は,隠れガムベルサンプリングに基づくアルゴリズムを開発し,遅延雑音変数を推定し,観測された弦の反事実を生成する。
本実験は,本手法が有意義な反事実を生じさせる一方で,一般的に用いられている介入手法が好ましくない副作用を生じさせることを示すものである。
関連論文リスト
- Counterfactual Generative Modeling with Variational Causal Inference [1.9287470458589586]
本稿では, 逆ファクト生成モデリングタスクを扱うための変分ベイズ因果推論フレームワークを提案する。
実験では, 反ファクト生成モデルにおける最先端モデルと比較して, フレームワークの利点を実証する。
論文 参考訳(メタデータ) (2024-10-16T16:44:12Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse
Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。
本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。
学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文 参考訳(メタデータ) (2024-01-10T02:38:21Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Probing for Incremental Parse States in Autoregressive Language Models [9.166953511173903]
自己回帰型ニューラルネットワークモデルからの次の単語予測は、構文に対する顕著な感度を示す。
この研究は、漸進的な構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生じる範囲を評価する。
論文 参考訳(メタデータ) (2022-11-17T18:15:31Z) - NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as
Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。
モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。
以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文 参考訳(メタデータ) (2022-11-08T16:37:34Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z) - A Discrete Variational Recurrent Topic Model without the
Reparametrization Trick [16.54912614895861]
離散確率変数を用いたニューラルトピックモデルの学習方法を示す。
複数のコーパスにまたがってパープレキシティと文書理解が改善された。
論文 参考訳(メタデータ) (2020-10-22T20:53:44Z) - Natural Language Inference with Mixed Effects [4.560556461930812]
本稿では,モデルに不要なノイズを加えることなく,アグリゲーションステップをスキップし,生のアノテーションを直接訓練できる汎用手法を提案する。
本研究では,既存のニューラルモデルにテクスタイノネータランダム効果を組み込むことにより,テクスタイトミックス効果モデルの概念を一般化し,そのような効果を組み込まないモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-20T17:54:16Z) - CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。
本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。
本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文 参考訳(メタデータ) (2020-05-27T15:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。