論文の概要: Adversarial Circuit Evaluation
- arxiv url: http://arxiv.org/abs/2407.15166v1
- Date: Sun, 21 Jul 2024 13:43:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 18:59:03.926866
- Title: Adversarial Circuit Evaluation
- Title(参考訳): 逆回路評価
- Authors: Niels uit de Bos, Adrià Garriga-Alonso,
- Abstract要約: 文献中の3つの回路(IOI, Great-than, docstring)を対角的に評価した。
我々は,全モデルの出力と回路の出力とのKLのばらつきを測定し,再サンプリングアブレーションによって計算し,最悪の性能の入力を解析する。
- 参考スコア(独自算出の注目度): 1.1893676124374688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Circuits are supposed to accurately describe how a neural network performs a specific task, but do they really? We evaluate three circuits found in the literature (IOI, greater-than, and docstring) in an adversarial manner, considering inputs where the circuit's behavior maximally diverges from the full model. Concretely, we measure the KL divergence between the full model's output and the circuit's output, calculated through resample ablation, and we analyze the worst-performing inputs. Our results show that the circuits for the IOI and docstring tasks fail to behave similarly to the full model even on completely benign inputs from the original task, indicating that more robust circuits are needed for safety-critical applications.
- Abstract(参考訳): ニューラルネットワークが特定のタスクをどのように実行するか、回路は正確に記述することが求められています。
文献(IOI, Great-than, and docstring)中の3つの回路を,回路の動作が全モデルから最大に分岐する入力を考慮した逆方向で評価する。
具体的には、全モデルの出力と回路の出力とのKLのばらつきを測定し、再サンプリングアブレーションによって計算し、最悪性能の入力を解析する。
本結果から,IOIタスクとドクストリングタスクの回路は,本来のタスクからの完全良性入力においても,完全モデルと同様の動作をせず,より堅牢な回路が安全クリティカルなアプリケーションに必要であることが示唆された。
関連論文リスト
- Transformer Circuit Faithfulness Metrics are not Robust [0.04260910081285213]
回路の「忠実さ」を、モデルの計算の一部を損なうことによって測定する。
既存の回路忠実度スコアは、研究者の方法論的選択と回路の実際の構成要素の両方を反映していると結論付けている。
機械的解釈可能性の研究の最終的な目標は、ニューラルネットワークを理解することです。
論文 参考訳(メタデータ) (2024-07-11T17:59:00Z) - Functional Faithfulness in the Wild: Circuit Discovery with Differentiable Computation Graph Pruning [14.639036250438517]
本稿では、DiscoGPとともにCircuit Discoveryと呼ばれるタスクを包括的に再構築する。
DiscoGPは、回路発見のための識別可能なマスキングに基づく、新しく効果的なアルゴリズムである。
論文 参考訳(メタデータ) (2024-07-04T09:42:25Z) - Finding Transformer Circuits with Edge Pruning [71.12127707678961]
自動回路発見の効率的かつスケーラブルなソリューションとしてエッジプルーニングを提案する。
本手法は,従来の手法に比べてエッジ数の半分未満のGPT-2の回路を探索する。
その効率のおかげで、Edge PruningをCodeLlama-13Bにスケールしました。
論文 参考訳(メタデータ) (2024-06-24T16:40:54Z) - Automatically Identifying Local and Global Circuits with Linear Computation Graphs [45.760716193942685]
Sparse Autoencoders (SAEs) と Transcoders と呼ばれる変種を用いた回路発見パイプラインを導入する。
本手法は各ノードの因果効果を計算するために線形近似を必要としない。
GPT-2 Small: Bracket, induction, Indirect Object Identification circuits の3種類の回路を解析する。
論文 参考訳(メタデータ) (2024-05-22T17:50:04Z) - Have Faith in Faithfulness: Going Beyond Circuit Overlap When Finding Model Mechanisms [35.514624827207136]
エッジ属性パッチ(EAP: Edge Attribution patching)は、介入に対する勾配に基づく近似であり、この問題に対するスケーラブルだが不完全な解決策として現れている。
本稿では,回路のコア特性をよりよく維持することを目的とした,統合勾配付きEAP(EAP-IG)手法を提案する。
EAPを用いた回路はEAP-IGを用いた回路に比べて信頼性が低いことを示した。
論文 参考訳(メタデータ) (2024-03-26T15:44:58Z) - CktGNN: Circuit Graph Neural Network for Electronic Design Automation [67.29634073660239]
本稿では,回路トポロジ生成とデバイスサイズを同時に行う回路グラフニューラルネットワーク(CktGNN)を提案する。
オープンサーキットベンチマーク(OCB: Open Circuit Benchmark)は、オープンソースのデータセットで、10ドル(約10万円)の異なるオペレーショナルアンプを含む。
我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。
論文 参考訳(メタデータ) (2023-08-31T02:20:25Z) - Adaptive Planning Search Algorithm for Analog Circuit Verification [53.97809573610992]
シミュレーションの少ない機械学習(ML)アプローチを提案する。
提案手法により,OCCを全回路の仕様に近づけることができることを示す。
論文 参考訳(メタデータ) (2023-06-23T12:57:46Z) - Pretraining Graph Neural Networks for few-shot Analog Circuit Modeling
and Design [68.1682448368636]
本稿では、新しい未知のトポロジや未知の予測タスクに適応可能な回路表現を学習するための教師付き事前学習手法を提案する。
異なる回路の変動位相構造に対処するため、各回路をグラフとして記述し、グラフニューラルネットワーク(GNN)を用いてノード埋め込みを学習する。
出力ノード電圧の予測における事前学習GNNは、新しい未知のトポロジや新しい回路レベル特性の予測に適応可能な学習表現を促進することができることを示す。
論文 参考訳(メタデータ) (2022-03-29T21:18:47Z) - On the realistic worst case analysis of quantum arithmetic circuits [69.43216268165402]
量子回路の設計における直観は誤解を招く可能性があることを示す。
また,T数を減らすことで,全深度を増大させることができることを示した。
リップルキャリーを用いた加算回路と乗算回路について述べる。
論文 参考訳(メタデータ) (2021-01-12T21:36:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。