論文の概要: FIND: A Function Description Benchmark for Evaluating Interpretability
Methods
- arxiv url: http://arxiv.org/abs/2309.03886v2
- Date: Fri, 1 Dec 2023 19:13:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:18:38.936929
- Title: FIND: A Function Description Benchmark for Evaluating Interpretability
Methods
- Title(参考訳): FIND:解釈可能性評価のための関数記述ベンチマーク
- Authors: Sarah Schwettmann, Tamar Rott Shaham, Joanna Materzynska, Neil
Chowdhury, Shuang Li, Jacob Andreas, David Bau, Antonio Torralba
- Abstract要約: 本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
- 参考スコア(独自算出の注目度): 86.80718559904854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Labeling neural network submodules with human-legible descriptions is useful
for many downstream tasks: such descriptions can surface failures, guide
interventions, and perhaps even explain important model behaviors. To date,
most mechanistic descriptions of trained networks have involved small models,
narrowly delimited phenomena, and large amounts of human labor. Labeling all
human-interpretable sub-computations in models of increasing size and
complexity will almost certainly require tools that can generate and validate
descriptions automatically. Recently, techniques that use learned models
in-the-loop for labeling have begun to gain traction, but methods for
evaluating their efficacy are limited and ad-hoc. How should we validate and
compare open-ended labeling tools? This paper introduces FIND (Function
INterpretation and Description), a benchmark suite for evaluating the building
blocks of automated interpretability methods. FIND contains functions that
resemble components of trained neural networks, and accompanying descriptions
of the kind we seek to generate. The functions span textual and numeric
domains, and involve a range of real-world complexities. We evaluate methods
that use pretrained language models (LMs) to produce descriptions of function
behavior in natural language and code. Additionally, we introduce a new
interactive method in which an Automated Interpretability Agent (AIA) generates
function descriptions. We find that an AIA, built from an LM with black-box
access to functions, can infer function structure, acting as a scientist by
forming hypotheses, proposing experiments, and updating descriptions in light
of new data. However, AIA descriptions tend to capture global function behavior
and miss local details. These results suggest that FIND will be useful for
evaluating more sophisticated interpretability methods before they are applied
to real-world models.
- Abstract(参考訳): このような記述は、失敗を表面化したり、介入をガイドしたり、重要なモデルの振る舞いを説明したりする。
これまで、訓練されたネットワークの機械的な記述の多くは、小さなモデル、狭義に区切られた現象、そして大量の人的労働を伴う。
サイズと複雑さの増大したモデルに、人間解釈可能なサブ計算をラベル付けするには、ほぼ確実に、記述を自動生成し検証するツールが必要である。
近年,ループ内学習モデルを用いたラベリング手法が注目され始めているが,有効性を評価する手法は限られている。
オープンなラベル付けツールの検証と比較には,どうすればよいのか?
本稿では,自動解釈手法の構成ブロックを評価するためのベンチマークスイートであるfind(function interpretation and description)を提案する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
関数はテキストドメインと数値ドメインにまたがり、様々な現実世界の複雑さを含む。
本研究では,事前学習された言語モデル(LM)を用いて,自然言語やコードにおける関数の振る舞いを記述する手法を評価する。
さらに,AIA(Automated Interpretability Agent)が関数記述を生成するインタラクティブな手法を提案する。
関数へのブラックボックスアクセスを持つLMから構築されたAIAは、機能構造を推論し、仮説を定式化し、実験を提案し、新しいデータに照らして記述を更新することで科学者として振る舞うことができる。
しかし、AIAの記述はグローバル関数の振る舞いを捉え、局所的な詳細を見逃す傾向がある。
これらの結果から,FINDは実世界のモデルに適用する前に,より洗練された解釈可能性の評価に有用であることが示唆された。
関連論文リスト
- Adaptive Language-Guided Abstraction from Contrastive Explanations [53.48583372522492]
報酬を計算するためにこれらの特徴をどのように使うべきかを決定する前に、環境のどの特徴が関係しているかを決定する必要がある。
連立特徴と報奨学習のためのエンドツーエンドの手法は、しばしば、刺激的な状態特徴に敏感な脆い報酬関数をもたらす。
本稿では,言語モデルを用いて人間に意味のある特徴を反復的に識別するALGAEという手法について述べる。
論文 参考訳(メタデータ) (2024-09-12T16:51:58Z) - Toward a Method to Generate Capability Ontologies from Natural Language Descriptions [43.06143768014157]
この貢献は、Large Language Models (LLMs) を用いた能力オントロジーモデリングを自動化する革新的な方法である。
我々のアプローチでは、能力の自然言語記述しか必要とせず、事前に定義されたプロンプトに自動的に挿入される。
提案手法は,最初の自然言語記述と最終的な人間のレビューと修正を行う必要があるため,手作業を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T07:41:44Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - A Multimodal Automated Interpretability Agent [63.8551718480664]
MAIAは、ニューラルモデルを使用して、ニューラルモデル理解タスクを自動化するシステムである。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
論文 参考訳(メタデータ) (2024-04-22T17:55:11Z) - Actuarial Applications of Natural Language Processing Using
Transformers: Case Studies for Using Text Features in an Actuarial Context [0.0]
このチュートリアルは、テキストデータをアクチュアリ分類と回帰タスクに組み込むことを実証する。
主な焦点はトランスフォーマーモデルを用いた手法である。
このケーススタディは、多言語設定と長い入力シーケンスに関連する課題に取り組む。
論文 参考訳(メタデータ) (2022-06-04T15:39:30Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - ORB: An Open Reading Benchmark for Comprehensive Evaluation of Machine
Reading Comprehension [53.037401638264235]
我々は,7種類の読解データセットの性能を報告する評価サーバORBを提案する。
評価サーバは、モデルのトレーニング方法に制限を課さないため、トレーニングパラダイムや表現学習の探索に適したテストベッドである。
論文 参考訳(メタデータ) (2019-12-29T07:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。