論文の概要: Localizing Model Behavior with Path Patching
- arxiv url: http://arxiv.org/abs/2304.05969v2
- Date: Tue, 16 May 2023 16:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:30:04.309624
- Title: Localizing Model Behavior with Path Patching
- Title(参考訳): 経路パッチングによるモデル行動の局在化
- Authors: Nicholas Goldowsky-Dill, Chris MacLeod, Lucas Sato, Aryaman Arora
- Abstract要約: 本稿では,行動が一組の経路に局所化されていることを示す仮説の自然なクラスを表現し,定量的に検証する手法であるパスパッチを導入する。
我々は、誘導ヘッドの説明を洗練させ、GPT-2の挙動を特徴付けるとともに、同様の実験を効率的に行うためのフレームワークをオープンソース化する。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing behaviors of neural networks to a subset of the network's
components or a subset of interactions between components is a natural first
step towards analyzing network mechanisms and possible failure modes. Existing
work is often qualitative and ad-hoc, and there is no consensus on the
appropriate way to evaluate localization claims. We introduce path patching, a
technique for expressing and quantitatively testing a natural class of
hypotheses expressing that behaviors are localized to a set of paths. We refine
an explanation of induction heads, characterize a behavior of GPT-2, and open
source a framework for efficiently running similar experiments.
- Abstract(参考訳): ニューラルネットワークの動作をネットワークのコンポーネントのサブセットやコンポーネント間のインタラクションのサブセットにローカライズすることは、ネットワークメカニズムと可能な障害モードを分析するための自然な第一歩である。
既存の作業はしばしば質的かつアドホックであり、ローカライゼーションのクレームを評価する適切な方法に関するコンセンサスはない。
我々は,行動が経路群に局在していることを示す自然な仮説のクラスを表現し,定量的にテストする手法であるpath patchingを導入する。
本稿では,誘導ヘッドの説明を洗練し,gpt-2の挙動を特徴付け,同様の実験を効率的に行うためのフレームワークをオープンソースとして公開する。
関連論文リスト
- Towards Subject Agnostic Affective Emotion Recognition [8.142798657174332]
脳波信号による脳-コンピュータインタフェース(aBCI)の不安定性
本稿では,メタラーニングに基づくメタドメイン適応手法を提案する。
提案手法は,パブリックなaBICsデータセットの実験において有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-20T23:44:34Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - Detection of Uncertainty in Exceedance of Threshold (DUET): An
Adversarial Patch Localizer [8.513938423514636]
敵パッチなどの物理世界攻撃に対する防衛の開発は、研究コミュニティ内で勢いを増している。
我々は不確実性に基づく逆パッチローカライザを導入することにより、逆パッチ検出の分野に貢献する。
このアルゴリズムは、逆パッチのローカライゼーションに対する信頼性を保証するためのフレームワークを提供する。
論文 参考訳(メタデータ) (2023-03-18T00:07:26Z) - A Computational Framework of Cortical Microcircuits Approximates
Sign-concordant Random Backpropagation [7.601127912271984]
本稿では,新しいマイクロ回路アーキテクチャとヘビアン学習規則の支持からなる仮説的枠組みを提案する。
我々は, 局所的な区画内でのヘビアン則を用いて, シナプス重みを更新し, 生物学的に妥当な方法で教師あり学習を実現する。
提案するフレームワークは、MNISTやCIFAR10などいくつかのデータセットでベンチマークされ、BP互換の有望な精度を示す。
論文 参考訳(メタデータ) (2022-05-15T14:22:03Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Learning Interpretable Models for Coupled Networks Under Domain
Constraints [8.308385006727702]
脳ネットワークの構造的エッジと機能的エッジの相互作用に着目して,結合ネットワークの概念を検討する。
相互作用を推定しながらノイズ項にハードネットワークの制約を課す新しい定式化を提案する。
ヒトコネクトームプロジェクトから得られたマルチシェル拡散およびタスク誘発fMRIデータセットの手法を検証する。
論文 参考訳(メタデータ) (2021-04-19T06:23:31Z) - Revisiting Indirect Ontology Alignment : New Challenging Issues in
Cross-Lingual Context [0.0]
本稿では,言語間文脈における間接的アライメントの新しい手法を提案する。
提案手法は,関係と信頼度の組み合わせを規定するアライメント代数に基づいている。
得られた結果は,提案手法に対する多くの肯定的な側面を強調するものであり,非常に有益である。
論文 参考訳(メタデータ) (2021-04-04T15:21:09Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - Visualization of Supervised and Self-Supervised Neural Networks via
Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。
実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文 参考訳(メタデータ) (2020-12-03T18:48:39Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z) - GCN for HIN via Implicit Utilization of Attention and Meta-paths [104.24467864133942]
不均一情報ネットワーク(HIN)埋め込みは、HINの構造と意味情報を分散表現にマッピングすることを目的としている。
本稿では,注意とメタパスを暗黙的に活用するニューラルネットワーク手法を提案する。
まず、各層で識別集約を行う多層グラフ畳み込みネットワーク(GCN)フレームワークを用いる。
次に,アグリゲーションから分離可能な新しい伝搬操作を導入することにより,効果的な緩和と改善を行う。
論文 参考訳(メタデータ) (2020-07-06T11:09:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。