Fugu-MT 論文翻訳(概要): Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

論文の概要: Interpretability at Scale: Identifying Causal Mechanisms in Alpaca

arxiv url: http://arxiv.org/abs/2305.08809v3
Date: Tue, 6 Feb 2024 22:30:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 20:49:30.255201
Title: Interpretability at Scale: Identifying Causal Mechanisms in Alpaca
Title（参考訳）: スケールでの解釈可能性:アルパカにおける因果メカニズムの解明
Authors: Zhengxuan Wu, Atticus Geiger, Thomas Icard, Christopher Potts, Noah D. Goodman
Abstract要約: 本研究では、Boundless DASを用いて、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索する。私たちの発見は、成長し、最も広くデプロイされている言語モデルの内部構造を忠実に理解するための第一歩です。
参考スコア（独自算出の注目度）: 62.65877150123775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Obtaining human-interpretable explanations of large, general-purpose language models is an urgent goal for AI safety. However, it is just as important that our interpretability methods are faithful to the causal dynamics underlying model behavior and able to robustly generalize to unseen inputs. Distributed Alignment Search (DAS) is a powerful gradient descent method grounded in a theory of causal abstraction that has uncovered perfect alignments between interpretable symbolic algorithms and small deep learning models fine-tuned for specific tasks. In the present paper, we scale DAS significantly by replacing the remaining brute-force search steps with learned parameters -- an approach we call Boundless DAS. This enables us to efficiently search for interpretable causal structure in large language models while they follow instructions. We apply Boundless DAS to the Alpaca model (7B parameters), which, off the shelf, solves a simple numerical reasoning problem. With Boundless DAS, we discover that Alpaca does this by implementing a causal model with two interpretable boolean variables. Furthermore, we find that the alignment of neural representations with these variables is robust to changes in inputs and instructions. These findings mark a first step toward faithfully understanding the inner-workings of our ever-growing and most widely deployed language models. Our tool is extensible to larger LLMs and is released publicly at `https://github.com/stanfordnlp/pyvene`.
Abstract（参考訳）: 大規模で汎用的な言語モデルの人間解釈可能な説明を得ることは、AI安全性の緊急の目標である。しかし、我々の解釈可能性法は、モデル行動の根底にある因果ダイナミクスに忠実であり、不明瞭な入力に頑健に一般化できることと同じくらい重要である。分散アライメント探索(DAS)は、因果抽象理論に基づく強力な勾配降下法であり、解釈可能なシンボルアルゴリズムと特定のタスクのために微調整された小さなディープラーニングモデルとの完全な整合性を発見した。本稿では,残ったブルートフォースサーチステップを学習パラメーターに置き換え,境界なしdasと呼ぶアプローチにより,dasを格段にスケールする。これにより、命令に従う間、大規模言語モデルにおける解釈可能な因果構造を効率的に探索できる。境界のないdasをalpacaモデル(7bパラメータ)に適用し、棚から外れて単純な数値推論問題を解く。境界のないdasでは、2つの解釈可能なブール変数を持つ因果モデルを実装することでalpacaがこれを行うことが分かる。さらに,これらの変数に対する神経表現のアライメントは,入力や命令の変化に対して頑健であることが判明した。これらの発見は、我々の成長し、最も広く展開されている言語モデルの内部動作を忠実に理解するための第一歩である。私たちのツールはより大きなLLMに拡張可能で、https://github.com/stanfordnlp/pyvene`で公開されています。

関連論文リスト

Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
DBR: Divergence-Based Regularization for Debiasing Natural Language Understanding Models [50.54264918467997]
プレトレーニング言語モデル(PLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。近年の研究では、これらのモデルが言語を真に理解するのではなく、表面的な特徴やショートカットに依存していることが明らかになっている。本稿では,このショートカット学習行動を軽減するために,ダイバージェンスに基づく正規化(DBR)を提案する。
論文参考訳（メタデータ） (2025-02-25T16:44:10Z)
SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文参考訳（メタデータ） (2024-12-16T09:47:43Z)
Interpreting Attention Layer Outputs with Sparse Autoencoders [3.201633659481912]
モデルアクティベーションを解釈可能なコンポーネントに分解することは、機械的解釈可能性において鍵となるオープンな問題である。この作業では、注意層出力でSAEをトレーニングし、ここでもSAEがスパースで解釈可能な分解を見つけることを示す。 Sparse Autoencodersは、研究者が以前の作業よりも詳細にモデル動作を説明するのに役立つツールであることを示す。
論文参考訳（メタデータ） (2024-06-25T17:43:13Z)
Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文参考訳（メタデータ） (2024-05-10T17:11:31Z)
Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文参考訳（メタデータ） (2023-05-25T15:04:01Z)
DeforestVis: Behavior Analysis of Machine Learning Models with Surrogate Decision Stumps [46.58231605323107]
複雑なMLモデルの振る舞いを要約する視覚解析ツールであるDeforestVisを提案する。 DeforestVisは、より多くの切り株をインクリメンタルに生成することで、複雑さとフィデリティのトレードオフを探索するのに役立つ。 DeforestVisの適用性と有用性について,2つのユースケースと,データアナリストとモデル開発者とのエキスパートインタビューで紹介する。
論文参考訳（メタデータ） (2023-03-31T21:17:15Z)
Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small [68.879023473838]
間接オブジェクト識別 (IOI) と呼ばれる自然言語タスクにおいて, GPT-2 の小型化が果たす役割について解説する。我々の知る限り、この調査は言語モデルにおいて「野生」の自然な振る舞いをリバースエンジニアリングする最大のエンドツーエンドの試みである。
論文参考訳（メタデータ） (2022-11-01T17:08:44Z)
Systematic Evaluation of Causal Discovery in Visual Model Based Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文参考訳（メタデータ） (2021-07-02T05:44:56Z)
Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文参考訳（メタデータ） (2020-12-30T20:40:48Z)
Learning outside the Black-Box: The pursuit of interpretable models [78.32475359554395]
本稿では,任意の連続ブラックボックス関数の連続的大域的解釈を生成するアルゴリズムを提案する。我々の解釈は、その芸術の以前の状態から飛躍的な進歩を表している。
論文参考訳（メタデータ） (2020-11-17T12:39:44Z)
Auditing and Debugging Deep Learning Models via Decision Boundaries: Individual-level and Group-level Analysis [0.0]
深層学習モデルの説明、監査、デバッグにはフリップポイントを使用します。フリップポイントは、2つの出力クラスの境界にある任意の点である。機械学習のソーシャルな応用に使用される標準データセットに基づいて訓練されたモデルをいくつか調べて,本手法を実証する。
論文参考訳（メタデータ） (2020-01-03T01:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。