論文の概要: Localizing Model Behavior with Path Patching
- arxiv url: http://arxiv.org/abs/2304.05969v2
- Date: Tue, 16 May 2023 16:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:30:04.309624
- Title: Localizing Model Behavior with Path Patching
- Title(参考訳): 経路パッチングによるモデル行動の局在化
- Authors: Nicholas Goldowsky-Dill, Chris MacLeod, Lucas Sato, Aryaman Arora
- Abstract要約: 本稿では,行動が一組の経路に局所化されていることを示す仮説の自然なクラスを表現し,定量的に検証する手法であるパスパッチを導入する。
我々は、誘導ヘッドの説明を洗練させ、GPT-2の挙動を特徴付けるとともに、同様の実験を効率的に行うためのフレームワークをオープンソース化する。
- 参考スコア(独自算出の注目度): 1.5293427903448025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Localizing behaviors of neural networks to a subset of the network's
components or a subset of interactions between components is a natural first
step towards analyzing network mechanisms and possible failure modes. Existing
work is often qualitative and ad-hoc, and there is no consensus on the
appropriate way to evaluate localization claims. We introduce path patching, a
technique for expressing and quantitatively testing a natural class of
hypotheses expressing that behaviors are localized to a set of paths. We refine
an explanation of induction heads, characterize a behavior of GPT-2, and open
source a framework for efficiently running similar experiments.
- Abstract(参考訳): ニューラルネットワークの動作をネットワークのコンポーネントのサブセットやコンポーネント間のインタラクションのサブセットにローカライズすることは、ネットワークメカニズムと可能な障害モードを分析するための自然な第一歩である。
既存の作業はしばしば質的かつアドホックであり、ローカライゼーションのクレームを評価する適切な方法に関するコンセンサスはない。
我々は,行動が経路群に局在していることを示す自然な仮説のクラスを表現し,定量的にテストする手法であるpath patchingを導入する。
本稿では,誘導ヘッドの説明を洗練し,gpt-2の挙動を特徴付け,同様の実験を効率的に行うためのフレームワークをオープンソースとして公開する。
関連論文リスト
- Identifying Sub-networks in Neural Networks via Functionally Similar Representations [41.028797971427124]
我々は、異なるサブネットワークの存在を調査し、ネットワークの理解を自動化するための一歩を踏み出した。
我々のアプローチは、人間と計算コストを最小限に抑えたニューラルネットワークの振る舞いに関する有意義な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-21T20:19:00Z) - Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。
相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。
第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:09:22Z) - Provable Bounds on the Hessian of Neural Networks: Derivative-Preserving Reachability Analysis [6.9060054915724]
本稿では,アクティベーションの異なるニューラルネットワークに適した新しい到達可能性解析手法を提案する。
本手法の重要な特徴は,活性化関数のループ変換により,その単調性を効果的に活用することである。
結果として得られるエンドツーエンドの抽象化は、微分情報を局所的に保存し、小さな入力集合に正確な境界を与える。
論文 参考訳(メタデータ) (2024-06-06T20:02:49Z) - Towards Subject Agnostic Affective Emotion Recognition [8.142798657174332]
脳波信号による脳-コンピュータインタフェース(aBCI)の不安定性
本稿では,メタラーニングに基づくメタドメイン適応手法を提案する。
提案手法は,パブリックなaBICsデータセットの実験において有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-20T23:44:34Z) - Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via
Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。
非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。
本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文 参考訳(メタデータ) (2023-07-27T08:58:05Z) - A Computational Framework of Cortical Microcircuits Approximates
Sign-concordant Random Backpropagation [7.601127912271984]
本稿では,新しいマイクロ回路アーキテクチャとヘビアン学習規則の支持からなる仮説的枠組みを提案する。
我々は, 局所的な区画内でのヘビアン則を用いて, シナプス重みを更新し, 生物学的に妥当な方法で教師あり学習を実現する。
提案するフレームワークは、MNISTやCIFAR10などいくつかのデータセットでベンチマークされ、BP互換の有望な精度を示す。
論文 参考訳(メタデータ) (2022-05-15T14:22:03Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Revisiting Indirect Ontology Alignment : New Challenging Issues in
Cross-Lingual Context [0.0]
本稿では,言語間文脈における間接的アライメントの新しい手法を提案する。
提案手法は,関係と信頼度の組み合わせを規定するアライメント代数に基づいている。
得られた結果は,提案手法に対する多くの肯定的な側面を強調するものであり,非常に有益である。
論文 参考訳(メタデータ) (2021-04-04T15:21:09Z) - Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。
CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。
本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文 参考訳(メタデータ) (2021-03-12T19:48:01Z) - Visualization of Supervised and Self-Supervised Neural Networks via
Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。
実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文 参考訳(メタデータ) (2020-12-03T18:48:39Z) - Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。
ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。
提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文 参考訳(メタデータ) (2020-09-01T09:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。