論文の概要: A Function Interpretation Benchmark for Evaluating Interpretability
Methods
- arxiv url: http://arxiv.org/abs/2309.03886v1
- Date: Thu, 7 Sep 2023 17:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:58:19.707600
- Title: A Function Interpretation Benchmark for Evaluating Interpretability
Methods
- Title(参考訳): 解釈可能性評価のための関数解釈ベンチマーク
- Authors: Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil
Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba
- Abstract要約: 本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
言語モデル(LM)を用いて関数の振る舞いのコードベースおよび言語記述を生成する新しい手法と既存手法を評価する。
- 参考スコア(独自算出の注目度): 86.80718559904854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling neural network submodules with human-legible descriptions is useful
for many downstream tasks: such descriptions can surface failures, guide
interventions, and perhaps even explain important model behaviors. To date,
most mechanistic descriptions of trained networks have involved small models,
narrowly delimited phenomena, and large amounts of human labor. Labeling all
human-interpretable sub-computations in models of increasing size and
complexity will almost certainly require tools that can generate and validate
descriptions automatically. Recently, techniques that use learned models
in-the-loop for labeling have begun to gain traction, but methods for
evaluating their efficacy are limited and ad-hoc. How should we validate and
compare open-ended labeling tools? This paper introduces FIND (Function
INterpretation and Description), a benchmark suite for evaluating the building
blocks of automated interpretability methods. FIND contains functions that
resemble components of trained neural networks, and accompanying descriptions
of the kind we seek to generate. The functions are procedurally constructed
across textual and numeric domains, and involve a range of real-world
complexities, including noise, composition, approximation, and bias. We
evaluate new and existing methods that use language models (LMs) to produce
code-based and language descriptions of function behavior. We find that an
off-the-shelf LM augmented with only black-box access to functions can
sometimes infer their structure, acting as a scientist by forming hypotheses,
proposing experiments, and updating descriptions in light of new data. However,
LM-based descriptions tend to capture global function behavior and miss local
corruptions. These results show that FIND will be useful for characterizing the
performance of more sophisticated interpretability methods before they are
applied to real-world models.
- Abstract(参考訳): このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。
これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。
サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。
近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。
オープンなラベル付けツールの検証と比較には,どうすればよいのか?
本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
関数は、テキストドメインと数値ドメインにまたがって手続き的に構築され、ノイズ、構成、近似、バイアスを含む様々な現実世界の複雑さを含む。
言語モデル(LM)を用いて関数の振る舞いのコードベースおよび言語記述を生成する新しい手法と既存手法を評価する。
機能へのブラックボックスアクセスのみを付加した既成のLMは、時にそれらの構造を推測し、仮説を形成し、実験を提案し、新しいデータに照らして記述を更新することによって科学者として機能する。
しかし、lmに基づく記述はグローバル機能の挙動を捉え、局所的な腐敗を見逃す傾向がある。
これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性手法の性能を特徴付けるのに有用であることが示唆された。
関連論文リスト
- A Multimodal Automated Interpretability Agent [63.8551718480664]
MAIAは、ニューラルモデルを使用して、ニューラルモデル理解タスクを自動化するシステムである。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
論文 参考訳(メタデータ) (2024-04-22T17:55:11Z) - Sparse Feature Circuits: Discovering and Editing Interpretable Causal Graphs in Language Models [55.19497659895122]
本稿ではスパース特徴回路の発見と適用方法を紹介する。
これらは言語モデルの振る舞いを説明するための人間の解釈可能な特徴の因果関係の著作である。
論文 参考訳(メタデータ) (2024-03-28T17:56:07Z) - Latent SHAP: Toward Practical Human-Interpretable Explanations [44.28376542666342]
人間の解釈可能な説明を提供するブラックボックス機能属性フレームワークであるLatent SHAPを紹介する。
本研究では,(1)可逆変換関数が利用できる制御実験により,提案手法の堅牢な定量的評価を可能にすること,(2)可逆変換関数が利用できないセレブの魅力度分類(CelebAデータセットを用いた)を用いて,遅延SHAPの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-27T11:33:26Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。