Fugu-MT 論文翻訳(概要): Gumbel Counterfactual Generation From Language Models

論文の概要: Gumbel Counterfactual Generation From Language Models

arxiv url: http://arxiv.org/abs/2411.07180v3
Date: Fri, 13 Dec 2024 22:30:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.239422
Title: Gumbel Counterfactual Generation From Language Models
Title（参考訳）: 言語モデルからガムベル対実生成
Authors: Shauli Ravfogel, Anej Svete, Vésteinn Snæbjarnarson, Ryan Cotterell,
Abstract要約: 対実的推論が介入と概念的に異なることを示す。そこで本研究では,真の文字列反事実を生成するためのフレームワークを提案する。提案手法は,従来の介入手法が望ましくない副作用を有意に生み出しているのに対し,本手法は有意義な反事実を生じさせることを示す。
参考スコア（独自算出の注目度）: 64.55296662926919
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding and manipulating the causal generation mechanisms in language models is essential for controlling their behavior. Previous work has primarily relied on techniques such as representation surgery -- e.g., model ablations or manipulation of linear subspaces tied to specific concepts -- to \emph{intervene} on these models. To understand the impact of interventions precisely, it is useful to examine counterfactuals -- e.g., how a given sentence would have appeared had it been generated by the model following a specific intervention. We highlight that counterfactual reasoning is conceptually distinct from interventions, as articulated in Pearl's causal hierarchy. Based on this observation, we propose a framework for generating true string counterfactuals by reformulating language models as a structural equation model using the Gumbel-max trick, which we called Gumbel counterfactual generation. This reformulation allows us to model the joint distribution over original strings and their counterfactuals resulting from the same instantiation of the sampling noise. We develop an algorithm based on hindsight Gumbel sampling that allows us to infer the latent noise variables and generate counterfactuals of observed strings. Our experiments demonstrate that the approach produces meaningful counterfactuals while at the same time showing that commonly used intervention techniques have considerable undesired side effects.
Abstract（参考訳）: 言語モデルにおける因果生成機構の理解と操作は,それらの振る舞いを制御する上で不可欠である。これまでの研究は主に、表現手術(例:モデルアブレーション)や特定の概念に結びついた線形部分空間の操作など)や、これらのモデルにおける 'emph{intervene} といった技術に依存してきた。介入の影響を正確に理解するためには、ある文が特定の介入の後にモデルによって生成された場合、どのように出現したかなど、偽造品を調べるのが有用である。パールの因果的階層に記述されているように,反事実的推論は概念的に介入と区別されている。本稿では,Gumbel-max の手法を用いて言語モデルを構造方程式モデルとして再構成し,真弦の反事実を生成するフレームワークを提案する。この再構成により、サンプリングノイズの同一のインスタンス化により、原弦上の結合分布とその反事実をモデル化することができる。我々は,隠れガムベルサンプリングに基づくアルゴリズムを開発し,遅延雑音変数を推定し,観測された弦の反事実を生成する。本実験は,本手法が有意義な反事実を生じさせる一方で,一般的に用いられている介入手法が好ましくない副作用を生じさせることを示すものである。

関連論文リスト

Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Counterfactual Generative Modeling with Variational Causal Inference [1.9287470458589586]
本稿では, 逆ファクト生成モデリングタスクを扱うための変分ベイズ因果推論フレームワークを提案する。実験では, 反ファクト生成モデルにおける最先端モデルと比較して, フレームワークの利点を実証する。
論文参考訳（メタデータ） (2024-10-16T16:44:12Z)
Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文参考訳（メタデータ） (2024-02-15T00:20:30Z)
Nonparametric Partial Disentanglement via Mechanism Sparsity: Sparse Actions, Interventions and Sparse Temporal Dependencies [58.179981892921056]
この研究は、メカニズムのスパーシティ正則化(英語版)と呼ばれる、アンタングルメントの新たな原理を導入する。本稿では,潜在要因を同時に学習することで,絡み合いを誘発する表現学習手法を提案する。学習した因果グラフをスパースに規則化することにより、潜伏因子を復元できることを示す。
論文参考訳（メタデータ） (2024-01-10T02:38:21Z)
Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。分類タスクで訓練された視覚モデルに本手法を適用した。
論文参考訳（メタデータ） (2023-05-15T18:37:24Z)
Probing for Incremental Parse States in Autoregressive Language Models [9.166953511173903]
自己回帰型ニューラルネットワークモデルからの次の単語予測は、構文に対する顕著な感度を示す。この研究は、漸進的な構文構造の暗黙的な表現を維持する学習能力の結果として、この振る舞いが生じる範囲を評価する。
論文参考訳（メタデータ） (2022-11-17T18:15:31Z)
NaturalAdversaries: Can Naturalistic Adversaries Be as Effective as Artificial Adversaries? [61.58261351116679]
自然言語理解タスクのための2段階の逆例生成フレームワーク(NaturalAdversaries)を提案する。モデルパラメータへのアクセスレベルに基づいて、ブラックボックスとホワイトボックスの双方に適応可能である。以上の結果から,これらの対立はドメイン全体にわたって一般化され,ニューラルネットワーク分類モデルの堅牢性向上に向けた今後の研究への洞察が得られた。
論文参考訳（メタデータ） (2022-11-08T16:37:34Z)
Instance-Based Neural Dependency Parsing [56.63500180843504]
依存関係解析のための解釈可能な推論プロセスを持つニューラルモデルを開発する。私たちのモデルはインスタンスベースの推論を採用しており、トレーニングセットのエッジと比較することで、依存関係のエッジを抽出し、ラベル付けします。
論文参考訳（メタデータ） (2021-09-28T05:30:52Z)
Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文参考訳（メタデータ） (2021-09-09T10:10:29Z)
On the Lack of Robust Interpretability of Neural Text Classifiers [14.685352584216757]
本研究では,事前学習したトランスフォーマーエンコーダをベースとしたニューラルテキスト分類器の解釈の堅牢性を評価する。どちらのテストも、期待された行動から驚くほど逸脱しており、実践者が解釈から引き出す可能性のある洞察の程度について疑問を呈している。
論文参考訳（メタデータ） (2021-06-08T18:31:02Z)
Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文参考訳（メタデータ） (2021-05-27T09:14:35Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
A Discrete Variational Recurrent Topic Model without the Reparametrization Trick [16.54912614895861]
離散確率変数を用いたニューラルトピックモデルの学習方法を示す。複数のコーパスにまたがってパープレキシティと文書理解が改善された。
論文参考訳（メタデータ） (2020-10-22T20:53:44Z)
Natural Language Inference with Mixed Effects [4.560556461930812]
本稿では,モデルに不要なノイズを加えることなく,アグリゲーションステップをスキップし,生のアノテーションを直接訓練できる汎用手法を提案する。本研究では,既存のニューラルモデルにテクスタイノネータランダム効果を組み込むことにより,テクスタイトミックス効果モデルの概念を一般化し,そのような効果を組み込まないモデルよりも優れた性能を示す。
論文参考訳（メタデータ） (2020-10-20T17:54:16Z)
CausaLM: Causal Model Explanation Through Counterfactual Language Models [33.29636213961804]
CausaLMは、対実言語表現モデルを用いた因果モデル説明を作成するためのフレームワークである。本稿では,BERT のような言語表現モデルが,ある意味ある概念に対する対実表現を効果的に学習できることを示す。本手法の副産物は,テストされた概念の影響を受けない言語表現モデルである。
論文参考訳（メタデータ） (2020-05-27T15:06:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。