Fugu-MT 論文翻訳(概要): Mechanistic Interpretation through Contextual Decomposition in Transformers

論文の概要: Mechanistic Interpretation through Contextual Decomposition in Transformers

arxiv url: http://arxiv.org/abs/2407.00886v1
Date: Mon, 1 Jul 2024 01:12:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-04 01:17:19.384257
Title: Mechanistic Interpretation through Contextual Decomposition in Transformers
Title（参考訳）: 変圧器の文脈分解による機械的解釈
Authors: Aliyah R. Hsu, Yeshwanth Cherapanamjeri, Anobel Y. Odisho, Peter R. Carroll, Bin Yu,
Abstract要約: 変換器(CD-T)の文脈分解について述べる。 CD-Tは変圧器の柔軟な解釈法である。また,CD-T蒸留により,より忠実なアテンションヘッド回路が実現され,計算効率が向上した。
参考スコア（独自算出の注目度）: 11.048307951483446
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers exhibit impressive capabilities but are often regarded as black boxes due to challenges in understanding the complex nonlinear relationships between features. Interpreting machine learning models is of paramount importance to mitigate risks, and mechanistic interpretability is in particular of current interest as it opens up a window for guiding manual modifications and reverse-engineering solutions. In this work, we introduce contextual decomposition for transformers (CD-T), extending a prior work on CD for RNNs and CNNs, to address mechanistic interpretation computationally efficiently. CD-T is a flexible interpretation method for transformers. It can capture contributions of combinations of input features or source internal components (e.g. attention heads, feed-forward networks) to (1) final predictions or (2) the output of any target internal component. Using CD-T, we propose a novel algorithm for circuit discovery. On a real-world pathology report classification task: we show CD-T distills a more faithful circuit of attention heads with improved computational efficiency (speed up 2x) than a prior benchmark, path patching. As a versatile interpretation method, CD-T also exhibits exceptional capabilities for local interpretations. CD-T is shown to reliably find words and phrases of contrasting sentiment/topic on SST-2 and AGNews datasets. Through human experiments, we demonstrate CD-T enables users to identify the more accurate of two models and to better trust a model's outputs compared to alternative interpretation methods such as SHAP and LIME.
Abstract（参考訳）: トランスフォーマーは印象的な能力を示すが、特徴間の複雑な非線形関係を理解することの難しさからブラックボックスと見なされることが多い。機械学習モデルの解釈はリスクを軽減するために最重要であり、特に機械的解釈可能性は、手動修正やリバースエンジニアリングソリューションを導くための窓を開くことで、現在の関心事である。本研究では,変換器の文脈分解(CD-T)を導入し,RNNとCNNのCDに関する先行研究を拡張し,機械的解釈を効率よく処理する。 CD-Tは変圧器の柔軟な解釈法である。入力特徴とソース内部コンポーネント(例えば注意頭、フィードフォワードネットワーク)の組み合わせの組み合わせのコントリビューションを、(1)最終的な予測や(2)ターゲットの内部コンポーネントの出力にキャプチャすることができる。そこで本研究では,CD-Tを用いた新しい回路探索アルゴリズムを提案する。実世界の病理報告分類タスクでは、CD-Tは従来のベンチマークであるパスパッチよりも計算効率(速度2倍)が向上した、より忠実なアテンションヘッド回路を蒸留する。汎用的な解釈法として、CD-Tは局所的な解釈に例外的な能力を示す。 CD-Tは、SST-2とAGNewsデータセットで感情/話題を対比する単語やフレーズを確実に見つける。人間の実験を通して,CD-Tにより,2つのモデルのより正確な識別と,SHAPやLIMEなどの代替解釈手法と比較してモデルの出力の信頼性が向上することを示した。

関連論文リスト

Architect of the Bits World: Masked Autoregressive Modeling for Circuit Generation Guided by Truth Table [5.300504429005315]
本稿では,回路生成のための条件生成モデルと微分可能なアーキテクチャ探索(DAS)を組み合わせた新しい手法を提案する。まず、Circuit AutoEncoderに基づいてトレーニングされた回路トークンであるCircuitVQを紹介する。次に,トークンとしてCircuitVQを活用するマスク付き自己回帰モデルであるCircuitARを開発した。
論文参考訳（メタデータ） (2025-02-18T11:13:03Z)
Position-aware Automatic Circuit Discovery [59.64762573617173]
我々は既存の回路探索手法のギャップを同定し、モデル成分を入力位置間で等しく関連するものとして扱う。可変長例を含むタスクであっても,回路に位置性を組み込むための2つの改良を提案する。提案手法により, 位置感応回路の完全自動検出が可能となり, 従来よりも回路サイズと忠実度とのトレードオフが良好になる。
論文参考訳（メタデータ） (2025-02-07T00:18:20Z)
Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文参考訳（メタデータ） (2024-06-24T16:40:54Z)
Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。本手法は各ノードの因果効果を計算するために線形近似を必要としない。 GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文参考訳（メタデータ） (2024-05-22T17:50:04Z)
CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文参考訳（メタデータ） (2023-08-31T02:20:25Z)
FuNToM: Functional Modeling of RF Circuits Using a Neural Network Assisted Two-Port Analysis Method [0.40598496563941905]
本稿では,RF回路の機能モデリング手法であるFuNToMを提案する。 FuNToMは、単一のメインデータセットと複数の小さなデータセットを使用して、複数のトポロジをモデル化するための2ポート解析手法を利用している。その結果、複数のRF回路において、最先端技術と比較すると、必要なトレーニングデータを2.8倍から10.9倍削減できることがわかった。
論文参考訳（メタデータ） (2023-08-03T21:08:16Z)
Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文参考訳（メタデータ） (2023-06-23T12:57:46Z)
Towards Automated Circuit Discovery for Mechanistic Interpretability [7.605075513099429]
本稿では,それに続く機械的解釈可能性プロセスの体系化について述べる。調査中のデータセット、メトリック、ユニットを変えることで、研究者は各コンポーネントの機能を理解することができる。本稿では,いくつかのアルゴリズムを提案し,それを検証するために過去の解釈可能性の結果を再現する。
論文参考訳（メタデータ） (2023-04-28T17:36:53Z)
Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文参考訳（メタデータ） (2022-03-29T21:18:47Z)
On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。また,T数を減らすことで,全深度を増大させることができることを示した。リップルキャリーを用いた加算回路と乗算回路について述べる。
論文参考訳（メタデータ） (2021-01-12T21:36:16Z)
DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文参考訳（メタデータ） (2020-11-04T07:43:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。