論文の概要: Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
- arxiv url: http://arxiv.org/abs/2305.08809v3
- Date: Tue, 6 Feb 2024 22:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:49:30.255201
- Title: Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
- Title(参考訳): スケールでの解釈可能性:アルパカにおける因果メカニズムの解明
- Authors: Zhengxuan Wu, Atticus Geiger, Thomas Icard, Christopher Potts, Noah D.
Goodman
- Abstract要約: 本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。
私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
- 参考スコア(独自算出の注目度): 62.65877150123775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Obtaining human-interpretable explanations of large, general-purpose language
models is an urgent goal for AI safety. However, it is just as important that
our interpretability methods are faithful to the causal dynamics underlying
model behavior and able to robustly generalize to unseen inputs. Distributed
Alignment Search (DAS) is a powerful gradient descent method grounded in a
theory of causal abstraction that has uncovered perfect alignments between
interpretable symbolic algorithms and small deep learning models fine-tuned for
specific tasks. In the present paper, we scale DAS significantly by replacing
the remaining brute-force search steps with learned parameters -- an approach
we call Boundless DAS. This enables us to efficiently search for interpretable
causal structure in large language models while they follow instructions. We
apply Boundless DAS to the Alpaca model (7B parameters), which, off the shelf,
solves a simple numerical reasoning problem. With Boundless DAS, we discover
that Alpaca does this by implementing a causal model with two interpretable
boolean variables. Furthermore, we find that the alignment of neural
representations with these variables is robust to changes in inputs and
instructions. These findings mark a first step toward faithfully understanding
the inner-workings of our ever-growing and most widely deployed language
models. Our tool is extensible to larger LLMs and is released publicly at
`https://github.com/stanfordnlp/pyvene`.
- Abstract(参考訳): 大規模で汎用的な言語モデルの人間解釈可能な説明を得ることは、AI安全性の緊急の目標である。
しかし、我々の解釈可能性法は、モデル行動の根底にある因果ダイナミクスに忠実であり、不明瞭な入力に頑健に一般化できることと同じくらい重要である。
分散アライメント探索(DAS)は、因果抽象理論に基づく強力な勾配降下法であり、解釈可能なシンボルアルゴリズムと特定のタスクのために微調整された小さなディープラーニングモデルとの完全な整合性を発見した。
本稿では,残ったブルートフォースサーチステップを学習パラメーターに置き換え,境界なしdasと呼ぶアプローチにより,dasを格段にスケールする。
これにより、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索できる。
境界のないdasをalpacaモデル(7bパラメータ)に適用し、棚から外れて単純な数値推論問題を解く。
境界のないdasでは、2つの解釈可能なブール変数を持つ因果モデルを実装することでalpacaがこれを行うことが分かる。
さらに,これらの変数に対する神経表現のアライメントは,入力や命令の変化に対して頑健であることが判明した。
これらの発見は、我々の成長し、最も広く展開されている言語モデルの内部動作を忠実に理解するための第一歩である。
私たちのツールはより大きなLLMに拡張可能で、https://github.com/stanfordnlp/pyvene`で公開されています。
関連論文リスト
- Opening the Black Box: Analyzing Attention Weights and Hidden States in
Pre-trained Language Models for Non-language Tasks [0.8889304968879164]
階層構造を持つ制約付き算術問題に対して,事前学習した言語モデルを適用し,その注意重みと隠れ状態を分析する。
この調査は、人間の問題解決戦略と同様に、階層的な問題を適度に構造化した方法で解決するモデルによって、有望な結果を明らかにしている。
注意分析により、モデルがListOpsデータセットの長いシーケンスに一般化できると仮定できる。
論文 参考訳(メタデータ) (2023-06-21T11:48:07Z) - DeforestVis: Behavior Analysis of Machine Learning Models with Surrogate
Decision Stumps [49.97564931094598]
複雑なMLモデルの振る舞いをユーザフレンドリに要約するビジュアル分析ツールであるDeforestVisを提案する。
DeforestVisは、より多くの切り株をインクリメンタルに生成することで、複雑さとフィデリティのトレードオフを探索するのに役立つ。
DeforestVisの適用性と有用性について,2つのユースケースと,データアナリストとモデル開発者とのエキスパートインタビューで紹介する。
論文 参考訳(メタデータ) (2023-03-31T21:17:15Z) - Interpretability in the Wild: a Circuit for Indirect Object
Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。
我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文 参考訳(メタデータ) (2022-11-01T17:08:44Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。
我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文 参考訳(メタデータ) (2020-11-17T12:39:44Z) - Auditing and Debugging Deep Learning Models via Decision Boundaries:
Individual-level and Group-level Analysis [0.0]
深層学習モデルの説明、監査、デバッグにはフリップポイントを使用します。
フリップポイントは、2つの出力クラスの境界にある任意の点である。
機械学習のソーシャルな応用に使用される標準データセットに基づいて訓練されたモデルをいくつか調べて,本手法を実証する。
論文 参考訳(メタデータ) (2020-01-03T01:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。