論文の概要: CausalGym: Benchmarking causal interpretability methods on linguistic
tasks
- arxiv url: http://arxiv.org/abs/2402.12560v1
- Date: Mon, 19 Feb 2024 21:35:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:00:31.498384
- Title: CausalGym: Benchmarking causal interpretability methods on linguistic
tasks
- Title(参考訳): CausalGym:言語課題における因果解釈可能性手法のベンチマーク
- Authors: Aryaman Arora, Dan Jurafsky, Christopher Potts
- Abstract要約: CausalGymを使って、モデル動作に因果的に影響を及ぼす解釈可能性手法のベンチマークを行う。
ピチアモデル (14M--6.9B) について検討し, 幅広い解釈可能性手法の因果効果について検討した。
DASは他の手法よりも優れており、2つの困難な言語現象の学習軌跡の研究に利用している。
- 参考スコア(独自算出の注目度): 52.61917615039112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have proven to be powerful tools for psycholinguistic
research, but most prior work has focused on purely behavioural measures (e.g.,
surprisal comparisons). At the same time, research in model interpretability
has begun to illuminate the abstract causal mechanisms shaping LM behavior. To
help bring these strands of research closer together, we introduce CausalGym.
We adapt and expand the SyntaxGym suite of tasks to benchmark the ability of
interpretability methods to causally affect model behaviour. To illustrate how
CausalGym can be used, we study the pythia models (14M--6.9B) and assess the
causal efficacy of a wide range of interpretability methods, including linear
probing and distributed alignment search (DAS). We find that DAS outperforms
the other methods, and so we use it to study the learning trajectory of two
difficult linguistic phenomena in pythia-1b: negative polarity item licensing
and filler--gap dependencies. Our analysis shows that the mechanism
implementing both of these tasks is learned in discrete stages, not gradually.
- Abstract(参考訳): 言語モデル(LM)は、心理言語学研究のための強力なツールであることが証明されているが、ほとんどの以前の研究は純粋に行動的尺度(例えば、予備比較)に焦点を当てていた。
同時に、モデル解釈可能性の研究は、LMの振る舞いを形作る抽象因果メカニズムを照らし出すようになった。
これらの研究をより緊密にするために、CausalGymを紹介します。
我々はSyntaxGymタスクスイートを適応して拡張し、モデル動作に因果的に影響を与える解釈可能性メソッドの能力をベンチマークする。
CausalGym の使い方を説明するために, ピチアモデル (14M--6.9B) について検討し, 線形探索や分散アライメント探索 (DAS) を含む幅広い解釈可能性手法の因果効果を評価する。
我々はDASが他の手法より優れており、ピチア-1bにおける2つの困難な言語現象(負極性アイテムのライセンスとフィラーギャップ依存性)の学習軌跡の研究に利用している。
この2つのタスクを実装するメカニズムは,段階的に学習されるのではなく,段階的に学習される。
関連論文リスト
- Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。
本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。
この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文 参考訳(メタデータ) (2024-10-17T17:16:00Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Towards Understanding Sensitive and Decisive Patterns in Explainable AI: A Case Study of Model Interpretation in Geometric Deep Learning [18.408342615833185]
本研究は,2つの重要なデータパターン -- センシティブなパターン(モデル関連)と決定的なパターン(タスク関連)の区別に焦点を当てる。
本稿では,ポストホック法と自己解釈法という2つの主要な解釈手法の有効性を比較した。
以上の結果から, 自己解釈可能な手法は, 決定的パターンの検出において, 強い, 安定した性能を示すのに対し, ポストホック法は, 感度の高いパターンとよりよく一致した解釈を提供する傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-06-30T22:59:15Z) - How Likely Do LLMs with CoT Mimic Human Reasoning? [31.86489714330338]
大規模言語モデル(LLM)から推論能力を引き出すための有望な手法として思考の連鎖が出現する
我々は,LLMにおける問題指導,推論,解答の関係を理解するために因果解析を用いる。
論文 参考訳(メタデータ) (2024-02-25T10:13:04Z) - SLEM: Machine Learning for Path Modeling and Causal Inference with Super
Learner Equation Modeling [3.988614978933934]
因果推論は科学の重要な目標であり、研究者は観測データを使って意味のある結論に達することができる。
経路モデル、構造方程式モデル(SEM)および指向非巡回グラフ(DAG)は、現象の根底にある因果構造に関する仮定を明確に特定する手段を提供する。
本稿では,機械学習のスーパーラーナーアンサンブルを統合したパスモデリング手法であるSuper Learner Equation Modelingを提案する。
論文 参考訳(メタデータ) (2023-08-08T16:04:42Z) - Generative Models as a Complex Systems Science: How can we make sense of
large language model behavior? [75.79305790453654]
事前訓練されたモデルから望ましい振る舞いを排除し、望ましくないモデルを避けながら、NLPを再定義した。
言語モデルの振る舞いをタスク間性能を説明するカテゴリに分解する体系的な取り組みについて論じる。
論文 参考訳(メタデータ) (2023-07-31T22:58:41Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。