論文の概要: CausalGym: Benchmarking causal interpretability methods on linguistic
tasks
- arxiv url: http://arxiv.org/abs/2402.12560v1
- Date: Mon, 19 Feb 2024 21:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:00:31.498384
- Title: CausalGym: Benchmarking causal interpretability methods on linguistic
tasks
- Title(参考訳): CausalGym:言語課題における因果解釈可能性手法のベンチマーク
- Authors: Aryaman Arora, Dan Jurafsky, Christopher Potts
- Abstract要約: CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
- 参考スコア(独自算出の注目度): 52.61917615039112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have proven to be powerful tools for psycholinguistic
research, but most prior work has focused on purely behavioural measures (e.g.,
surprisal comparisons). At the same time, research in model interpretability
has begun to illuminate the abstract causal mechanisms shaping LM behavior. To
help bring these strands of research closer together, we introduce CausalGym.
We adapt and expand the SyntaxGym suite of tasks to benchmark the ability of
interpretability methods to causally affect model behaviour. To illustrate how
CausalGym can be used, we study the pythia models (14M--6.9B) and assess the
causal efficacy of a wide range of interpretability methods, including linear
probing and distributed alignment search (DAS). We find that DAS outperforms
the other methods, and so we use it to study the learning trajectory of two
difficult linguistic phenomena in pythia-1b: negative polarity item licensing
and filler--gap dependencies. Our analysis shows that the mechanism
implementing both of these tasks is learned in discrete stages, not gradually.
- Abstract(参考訳): 言語モデル(LM)は、心理言語学研究のための強力なツールであることが証明されているが、ほとんどの以前の研究は純粋に行動的尺度(例えば、予備比較)に焦点を当てていた。
同時に、モデル解釈可能性の研究は、LMの振る舞いを形作る抽象因果メカニズムを照らし出すようになった。
これらの研究をより緊密にするために、CausalGymを紹介します。
我々はSyntaxGymタスクスイートを適応して拡張し、モデル動作に因果的に影響を与える解釈可能性メソッドの能力をベンチマークする。
CausalGym の使い方を説明するために, ピチアモデル (14M--6.9B) について検討し, 線形探索や分散アライメント探索 (DAS) を含む幅広い解釈可能性手法の因果効果を評価する。
我々はDASが他の手法より優れており、ピチア-1bにおける2つの困難な言語現象(負極性アイテムのライセンスとフィラーギャップ依存性)の学習軌跡の研究に利用している。
この2つのタスクを実装するメカニズムは,段階的に学習されるのではなく,段階的に学習される。
関連論文リスト
- Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Causal Intersectionality and Dual Form of Gradient Descent for
Multimodal Analysis: a Case Study on Hateful Memes [1.0774440462574781]
機械学習(ML)の使用が爆発的に増加する中で、その内部作業に根ざした意味的意義を理解することが重要である。
本研究は, ヘイトフルミーム検出問題を平均処理効果(ATE)として定式化できることを示す。
最新のLLM LLaMA2は、コンテキスト内学習環境において、ミーム検出の交わる性質を解き放つことができることを示す。
論文 参考訳(メタデータ) (2023-08-19T13:14:15Z) - SLEM: Machine Learning for Path Modeling and Causal Inference with Super
Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。
経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文 参考訳(メタデータ) (2023-08-08T16:04:42Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Causal Analysis for Robust Interpretability of Neural Networks [0.2519906683279152]
我々は、事前学習されたニューラルネットワークの因果効果を捉えるための頑健な介入に基づく手法を開発した。
分類タスクで訓練された視覚モデルに本手法を適用した。
論文 参考訳(メタデータ) (2023-05-15T18:37:24Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - An Investigation of Language Model Interpretability via Sentence Editing [5.492504126672887]
我々は、事前学習言語モデル(PLM)の解釈可能性をテストするテストベッドとして、文編集データセットを再使用した。
これにより、PLMの解釈可能性に関する一連の質問に対して、系統的な調査を行うことができる。
この調査は、例えば、一般的な理解とは対照的に、注意重みが人間の合理性とよく相関しているという新たな洞察を生み出す。
論文 参考訳(メタデータ) (2020-11-28T00:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。