Fugu-MT 論文翻訳(概要): Localizing Model Behavior with Path Patching

論文の概要: Localizing Model Behavior with Path Patching

arxiv url: http://arxiv.org/abs/2304.05969v2
Date: Tue, 16 May 2023 16:24:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 18:30:04.309624
Title: Localizing Model Behavior with Path Patching
Title（参考訳）: 経路パッチングによるモデル行動の局在化
Authors: Nicholas Goldowsky-Dill, Chris MacLeod, Lucas Sato, Aryaman Arora
Abstract要約: 本稿では,行動が一組の経路に局所化されていることを示す仮説の自然なクラスを表現し,定量的に検証する手法であるパスパッチを導入する。我々は、誘導ヘッドの説明を洗練させ、GPT-2の挙動を特徴付けるとともに、同様の実験を効率的に行うためのフレームワークをオープンソース化する。
参考スコア（独自算出の注目度）: 1.5293427903448025
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Localizing behaviors of neural networks to a subset of the network's components or a subset of interactions between components is a natural first step towards analyzing network mechanisms and possible failure modes. Existing work is often qualitative and ad-hoc, and there is no consensus on the appropriate way to evaluate localization claims. We introduce path patching, a technique for expressing and quantitatively testing a natural class of hypotheses expressing that behaviors are localized to a set of paths. We refine an explanation of induction heads, characterize a behavior of GPT-2, and open source a framework for efficiently running similar experiments.
Abstract（参考訳）: ニューラルネットワークの動作をネットワークのコンポーネントのサブセットやコンポーネント間のインタラクションのサブセットにローカライズすることは、ネットワークメカニズムと可能な障害モードを分析するための自然な第一歩である。既存の作業はしばしば質的かつアドホックであり、ローカライゼーションのクレームを評価する適切な方法に関するコンセンサスはない。我々は,行動が経路群に局在していることを示す自然な仮説のクラスを表現し,定量的にテストする手法であるpath patchingを導入する。本稿では,誘導ヘッドの説明を洗練し,gpt-2の挙動を特徴付け,同様の実験を効率的に行うためのフレームワークをオープンソースとして公開する。

関連論文リスト

Neural Network Reprogrammability: A Unified Theme on Model Reprogramming, Prompt Tuning, and Prompt Instruction [55.914891182214475]
モデル適応のための統一フレームワークとして,ニューラルネットワークの再プログラム可能性を導入する。本稿では,4つの重要な側面にまたがる情報操作アプローチを分類する分類法を提案する。残る技術的課題や倫理的考察も分析する。
論文参考訳（メタデータ） (2025-06-05T05:42:27Z)
Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文参考訳（メタデータ） (2025-03-14T07:58:26Z)
Can We Validate Counterfactual Estimations in the Presence of General Network Interference? [6.092214762701847]
対実推定のためのクロスバリデーションを実現する新しいフレームワークを提案する。中心となるのは、分散保存ネットワークブートストラップ方式です。我々は、不均一な単位レベル特性を取り入れることで、最近の因果メッセージパッシングの発展を拡大する。
論文参考訳（メタデータ） (2025-02-03T06:51:04Z)
Identifying Sub-networks in Neural Networks via Functionally Similar Representations [41.028797971427124]
我々は、異なるサブネットワークの存在を調査し、ネットワークの理解を自動化するための一歩を踏み出した。我々のアプローチは、人間と計算コストを最小限に抑えたニューラルネットワークの振る舞いに関する有意義な洞察を提供する。
論文参考訳（メタデータ） (2024-10-21T20:19:00Z)
Relative Representations: Topological and Geometric Perspectives [53.88896255693922]
相対表現はゼロショットモデルの縫合に対する確立されたアプローチである。相対変換において正規化手順を導入し、非等方的再スケーリングや置換に不変となる。第二に、クラス内のクラスタリングを促進するトポロジカル正規化損失である、微調整された相対表現におけるトポロジカルデシフィケーションの展開を提案する。
論文参考訳（メタデータ） (2024-09-17T08:09:22Z)
Provable Bounds on the Hessian of Neural Networks: Derivative-Preserving Reachability Analysis [6.9060054915724]
本稿では,アクティベーションの異なるニューラルネットワークに適した新しい到達可能性解析手法を提案する。本手法の重要な特徴は,活性化関数のループ変換により,その単調性を効果的に活用することである。結果として得られるエンドツーエンドの抽象化は、微分情報を局所的に保存し、小さな入力集合に正確な境界を与える。
論文参考訳（メタデータ） (2024-06-06T20:02:49Z)
Towards Subject Agnostic Affective Emotion Recognition [8.142798657174332]
脳波信号による脳-コンピュータインタフェース(aBCI)の不安定性本稿では,メタラーニングに基づくメタドメイン適応手法を提案する。提案手法は,パブリックなaBICsデータセットの実験において有効であることが示されている。
論文参考訳（メタデータ） (2023-10-20T23:44:34Z)
Taxonomy Adaptive Cross-Domain Adaptation in Medical Imaging via Optimization Trajectory Distillation [73.83178465971552]
自動医用画像解析の成功は、大規模かつ専門家による注釈付きトレーニングセットに依存する。非教師なしドメイン適応(UDA)はラベル付きデータ収集の負担を軽減するための有望なアプローチである。本稿では,2つの技術的課題に新しい視点から対処する統一的手法である最適化トラジェクトリ蒸留を提案する。
論文参考訳（メタデータ） (2023-07-27T08:58:05Z)
Detection of Uncertainty in Exceedance of Threshold (DUET): An Adversarial Patch Localizer [8.513938423514636]
敵パッチなどの物理世界攻撃に対する防衛の開発は、研究コミュニティ内で勢いを増している。我々は不確実性に基づく逆パッチローカライザを導入することにより、逆パッチ検出の分野に貢献する。このアルゴリズムは、逆パッチのローカライゼーションに対する信頼性を保証するためのフレームワークを提供する。
論文参考訳（メタデータ） (2023-03-18T00:07:26Z)
A Computational Framework of Cortical Microcircuits Approximates Sign-concordant Random Backpropagation [7.601127912271984]
本稿では,新しいマイクロ回路アーキテクチャとヘビアン学習規則の支持からなる仮説的枠組みを提案する。我々は, 局所的な区画内でのヘビアン則を用いて, シナプス重みを更新し, 生物学的に妥当な方法で教師あり学習を実現する。提案するフレームワークは、MNISTやCIFAR10などいくつかのデータセットでベンチマークされ、BP互換の有望な精度を示す。
論文参考訳（メタデータ） (2022-05-15T14:22:03Z)
Triggering Failures: Out-Of-Distribution detection by learning from local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。 3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文参考訳（メタデータ） (2021-08-03T17:09:56Z)
Revisiting Indirect Ontology Alignment : New Challenging Issues in Cross-Lingual Context [0.0]
本稿では,言語間文脈における間接的アライメントの新しい手法を提案する。提案手法は,関係と信頼度の組み合わせを規定するアライメント代数に基づいている。得られた結果は,提案手法に対する多くの肯定的な側面を強調するものであり,非常に有益である。
論文参考訳（メタデータ） (2021-04-04T15:21:09Z)
Cross-Domain Similarity Learning for Face Recognition in Unseen Domains [90.35908506994365]
本研究では,cdt(cross-domain triplet, クロスドメイントリプレット)の損失を推測する新しいクロスドメインメトリック学習損失法を提案する。 CDT損失は、一つのドメインからコンパクトな特徴クラスタを強制することによって意味論的に意味のある特徴の学習を促進する。本手法では,トレーニング中,注意深いハードペアサンプルマイニングおよびフィルタリング戦略は必要としない。
論文参考訳（メタデータ） (2021-03-12T19:48:01Z)
Visualization of Supervised and Self-Supervised Neural Networks via Attribution Guided Factorization [87.96102461221415]
クラスごとの説明性を提供するアルゴリズムを開発した。実験の広範なバッテリーでは、クラス固有の可視化のための手法の能力を実証する。
論文参考訳（メタデータ） (2020-12-03T18:48:39Z)
Developing Constrained Neural Units Over Time [81.19349325749037]
本稿では,既存のアプローチと異なるニューラルネットワークの定義方法に焦点をあてる。ニューラルネットワークの構造は、データとの相互作用にも拡張される制約の特別なクラスによって定義される。提案した理論は時間領域にキャストされ, データを順序づけられた方法でネットワークに提示する。
論文参考訳（メタデータ） (2020-09-01T09:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。