論文の概要: A Multimodal Automated Interpretability Agent
- arxiv url: http://arxiv.org/abs/2404.14394v1
- Date: Mon, 22 Apr 2024 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 12:58:23.881206
- Title: A Multimodal Automated Interpretability Agent
- Title(参考訳): マルチモーダル・オートマチック・インタプリタビリティー・エージェント
- Authors: Tamar Rott Shaham, Sarah Schwettmann, Franklin Wang, Achyuta Rajaram, Evan Hernandez, Jacob Andreas, Antonio Torralba,
- Abstract要約: MAIAは、ニューラルモデルを使用して、ニューラルモデル理解タスクを自動化するシステムである。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
- 参考スコア(独自算出の注目度): 63.8551718480664
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper describes MAIA, a Multimodal Automated Interpretability Agent. MAIA is a system that uses neural models to automate neural model understanding tasks like feature interpretation and failure mode discovery. It equips a pre-trained vision-language model with a set of tools that support iterative experimentation on subcomponents of other models to explain their behavior. These include tools commonly used by human interpretability researchers: for synthesizing and editing inputs, computing maximally activating exemplars from real-world datasets, and summarizing and describing experimental results. Interpretability experiments proposed by MAIA compose these tools to describe and explain system behavior. We evaluate applications of MAIA to computer vision models. We first characterize MAIA's ability to describe (neuron-level) features in learned representations of images. Across several trained models and a novel dataset of synthetic vision neurons with paired ground-truth descriptions, MAIA produces descriptions comparable to those generated by expert human experimenters. We then show that MAIA can aid in two additional interpretability tasks: reducing sensitivity to spurious features, and automatically identifying inputs likely to be mis-classified.
- Abstract(参考訳): 本稿では,マルチモーダル・オートマチック・インタプリタビリティ・エージェントであるMAIAについて述べる。
MAIAは、ニューラルモデルを使用して、機能解釈や障害モード発見などのニューラルモデル理解タスクを自動化するシステムである。
事前学習された視覚言語モデルに、他のモデルのサブコンポーネント上で反復的な実験をサポートし、それらの振る舞いを説明する一連のツールを装備する。
インプットの合成と編集、現実世界のデータセットから経験を最大限に活性化する計算、実験結果の要約と記述などである。
MAIAによって提案された解釈可能性実験は、システム動作の説明と説明のためのツールを構成する。
コンピュータビジョンモデルに対するMAIAの適用性を評価する。
まず、画像の学習表現における(ニューロンレベルの)特徴を記述できるMAIAの能力を特徴付ける。
いくつかの訓練されたモデルと、ペアの接地真実記述を持つ合成視覚ニューロンの新たなデータセットにより、MAIAは、専門家の人間の実験者が生成したものと同等の記述を生成する。
次に、MAIAは、刺激的な特徴に対する感度の低下と、誤分類される可能性のある入力を自動的に識別する2つの追加の解釈可能性タスクに役立てることができることを示す。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - FACT: Learning Governing Abstractions Behind Integer Sequences [7.895232155155041]
完全なフィニシャルな記述を認める概念の学習に関する新しい見解を紹介する。
機械学習モデルによる概念理解を目的としたベンチマークタスクのセットを配置する。
知識表現と推論の研究をさらに支援するため,FACT(Finitary Abstraction Toolkit)を提案する。
論文 参考訳(メタデータ) (2022-09-20T08:20:03Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Quality Metrics for Transparent Machine Learning With and Without Humans
In the Loop Are Not Correlated [0.0]
心理物理学の手法を用いて,解釈可能なコンピュータビジョンアルゴリズムの品質について検討する。
この結果から,心理物理学的な実験により,機械学習における透明性の堅牢な品質評価が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-01T12:30:51Z) - Classification Under Human Assistance [29.220005688025378]
教師付き学習モデルでは、異なる自動化レベル下での運用が、完全な自動化のためにトレーニングされた者や、単独で運用する人間よりも優れていることを示す。
医学診断におけるいくつかの応用から得られた合成および実世界のデータに関する実験は、我々の理論的知見を示している。
論文 参考訳(メタデータ) (2020-06-21T16:52:37Z) - Learning Predictive Models From Observation and Interaction [137.77887825854768]
世界との相互作用から予測モデルを学ぶことで、ロボットのようなエージェントが世界がどのように働くかを学ぶことができる。
しかし、複雑なスキルのダイナミクスを捉えるモデルを学ぶことは大きな課題である。
本研究では,人間などの他のエージェントの観察データを用いて,トレーニングセットを増強する手法を提案する。
論文 参考訳(メタデータ) (2019-12-30T01:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。