論文の概要: FIND: A Function Description Benchmark for Evaluating Interpretability
Methods
- arxiv url: http://arxiv.org/abs/2309.03886v3
- Date: Fri, 8 Dec 2023 05:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 18:27:23.133323
- Title: FIND: A Function Description Benchmark for Evaluating Interpretability
Methods
- Title(参考訳): FIND:解釈可能性評価のための関数記述ベンチマーク
- Authors: Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil
Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba
- Abstract要約: 本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
- 参考スコア(独自算出の注目度): 86.80718559904854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling neural network submodules with human-legible descriptions is useful
for many downstream tasks: such descriptions can surface failures, guide
interventions, and perhaps even explain important model behaviors. To date,
most mechanistic descriptions of trained networks have involved small models,
narrowly delimited phenomena, and large amounts of human labor. Labeling all
human-interpretable sub-computations in models of increasing size and
complexity will almost certainly require tools that can generate and validate
descriptions automatically. Recently, techniques that use learned models
in-the-loop for labeling have begun to gain traction, but methods for
evaluating their efficacy are limited and ad-hoc. How should we validate and
compare open-ended labeling tools? This paper introduces FIND (Function
INterpretation and Description), a benchmark suite for evaluating the building
blocks of automated interpretability methods. FIND contains functions that
resemble components of trained neural networks, and accompanying descriptions
of the kind we seek to generate. The functions span textual and numeric
domains, and involve a range of real-world complexities. We evaluate methods
that use pretrained language models (LMs) to produce descriptions of function
behavior in natural language and code. Additionally, we introduce a new
interactive method in which an Automated Interpretability Agent (AIA) generates
function descriptions. We find that an AIA, built from an LM with black-box
access to functions, can infer function structure, acting as a scientist by
forming hypotheses, proposing experiments, and updating descriptions in light
of new data. However, AIA descriptions tend to capture global function behavior
and miss local details. These results suggest that FIND will be useful for
evaluating more sophisticated interpretability methods before they are applied
to real-world models.
- Abstract(参考訳): このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。
これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。
サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。
近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。
オープンなラベル付けツールの検証と比較には,どうすればよいのか?
本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
関数はテキストドメインと数値ドメインにまたがり、様々な現実世界の複雑さを含む。
本研究では,事前学習された言語モデル(LM)を用いて,自然言語やコードにおける関数の振る舞いを記述する手法を評価する。
さらに,AIA(Automated Interpretability Agent)が関数記述を生成するインタラクティブな手法を提案する。
関数へのブラックボックスアクセスを持つLMから構築されたAIAは、機能構造を推論し、仮説を定式化し、実験を提案し、新しいデータに照らして記述を更新することで科学者として振る舞うことができる。
しかし、AIAの記述はグローバル関数の振る舞いを捉え、局所的な詳細を見逃す傾向がある。
これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性の評価に有用であることが示唆された。
関連論文リスト
- Latent SHAP: Toward Practical Human-Interpretable Explanations [44.28376542666342]
人間の解釈可能な説明を提供するブラックボックス機能属性フレームワークであるLatent SHAPを紹介する。
本研究では,(1)可逆変換関数が利用できる制御実験により,提案手法の堅牢な定量的評価を可能にすること,(2)可逆変換関数が利用できないセレブの魅力度分類(CelebAデータセットを用いた)を用いて,遅延SHAPの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-27T11:33:26Z) - Explaining Patterns in Data with Language Models via Interpretable
Autoprompting [143.4162028260874]
本稿では,データを説明する自然言語文字列を生成するアルゴリズムである,解釈可能なオートプロンプト(iPrompt)を提案する。
iPromptは、基盤となるデータセット記述を正確に見つけることで、意味のある洞察を得ることができる。
fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。
論文 参考訳(メタデータ) (2022-10-04T18:32:14Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。