論文の概要: The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms
- arxiv url: http://arxiv.org/abs/2408.05859v1
- Date: Sun, 11 Aug 2024 20:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:05:59.044085
- Title: The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms
- Title(参考訳): 解釈可能性における認知的革命--説明行動から表現とアルゴリズムの解釈へ-
- Authors: Adam Davies, Ashkan Khakzar,
- Abstract要約: 機械的解釈可能性(MI)は、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムを研究する別の研究領域として登場した。
我々は、20世紀の心理学における「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。
計算神経科学におけるキーパラレルを反映した分類法を提案し,MI研究の2つの幅広いカテゴリについて述べる。
- 参考スコア(独自算出の注目度): 3.3653074379567096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial neural networks have long been understood as "black boxes": though we know their computation graphs and learned parameters, the knowledge encoded by these weights and functions they perform are not inherently interpretable. As such, from the early days of deep learning, there have been efforts to explain these models' behavior and understand them internally; and recently, mechanistic interpretability (MI) has emerged as a distinct research area studying the features and implicit algorithms learned by foundation models such as large language models. In this work, we aim to ground MI in the context of cognitive science, which has long struggled with analogous questions in studying and explaining the behavior of "black box" intelligent systems like the human brain. We leverage several important ideas and developments in the history of cognitive science to disentangle divergent objectives in MI and indicate a clear path forward. First, we argue that current methods are ripe to facilitate a transition in deep learning interpretation echoing the "cognitive revolution" in 20th-century psychology that shifted the study of human psychology from pure behaviorism toward mental representations and processing. Second, we propose a taxonomy mirroring key parallels in computational neuroscience to describe two broad categories of MI research, semantic interpretation (what latent representations are learned and used) and algorithmic interpretation (what operations are performed over representations) to elucidate their divergent goals and objects of study. Finally, we elaborate the parallels and distinctions between various approaches in both categories, analyze the respective strengths and weaknesses of representative works, clarify underlying assumptions, outline key challenges, and discuss the possibility of unifying these modes of interpretation under a common framework.
- Abstract(参考訳): 計算グラフと学習パラメータは知っているが、これらの重みとそれらが実行する関数によって符号化された知識は本質的に解釈可能であるわけではない。
このように、深層学習の初期から、これらのモデルの振る舞いを説明し、内部で理解する努力が続けられており、近年では、大きな言語モデルのような基礎モデルによって学習された特徴と暗黙のアルゴリズムの研究分野として、機械的解釈可能性(MI)が独立した研究領域として出現している。
本研究では,人間の脳のような「ブラックボックス」知能システムの動作を研究・説明するために,認知科学の文脈でMIを基礎にすることを目的としている。
我々は認知科学史におけるいくつかの重要なアイデアと発展を活用し、MIにおける多様な目的を分散させ、明確な進路を示す。
まず、20世紀の心理学において、人間の心理学の研究を純粋な行動主義から心的表現や処理へとシフトさせた「認知革命」を反映した深層学習解釈の移行を促進するために、現在の手法が熟していると論じる。
第2に,計算神経科学における重要な並列性を反映した分類法を提案し,MI研究の2つの幅広いカテゴリ,意味論的解釈(潜伏表現の学習と使用),アルゴリズム的解釈(表現上の操作)を記述し,それらの相違する目標と研究対象を解明する。
最後に、両カテゴリの様々なアプローチの並列性と区別を詳述し、代表作品のそれぞれの長所と短所を分析し、基礎となる前提を明確にし、重要な課題を概説し、共通の枠組みの下でこれらの解釈様式を統一する可能性について議論する。
関連論文リスト
- Neuro-Symbolic AI: Explainability, Challenges, and Future Trends [26.656105779121308]
本稿では,2013年度の191研究におけるモデル設計と行動の両面を考慮した説明可能性の分類を提案する。
我々は,表現の相違をブリッジする形態が可読かどうかを考慮し,これらを5つのカテゴリに分類する。
我々は、統一表現、モデル説明可能性の向上、倫理的考察、社会的影響の3つの側面で将来の研究を提案する。
論文 参考訳(メタデータ) (2024-11-07T02:54:35Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Interpreting Pretrained Language Models via Concept Bottlenecks [55.47515772358389]
事前訓練された言語モデル(PLM)は、様々な自然言語処理タスクにおいて大きな進歩を遂げてきた。
ブラックボックスの性質による解釈可能性の欠如は、責任ある実装に課題をもたらす。
本研究では,人間にとって理解しやすい高レベルで有意義な概念を用いて,PLMを解釈する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T20:41:18Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - Rejecting Cognitivism: Computational Phenomenology for Deep Learning [5.070542698701158]
本稿では,新しい手法である計算現象学に基づくディープラーニングのための非表現主義的フレームワークを提案する。
我々は、人工知能が外部エンティティの表現を符号化する深層学習の現代の認知論的解釈を拒絶する。
論文 参考訳(メタデータ) (2023-02-16T20:05:06Z) - Mapping Knowledge Representations to Concepts: A Review and New
Perspectives [0.6875312133832078]
本論は、内部表現と人間の理解可能な概念を関連付けることを目的とした研究に焦点をあてる。
この分類学と因果関係の理論は、ニューラルネットワークの説明から期待できるもの、期待できないものを理解するのに有用である。
この分析は、モデル説明可能性の目標に関するレビューされた文献の曖昧さも明らかにしている。
論文 参考訳(メタデータ) (2022-12-31T12:56:12Z) - Interpreting Neural Policies with Disentangled Tree Representations [58.769048492254555]
本稿では,コンパクトなニューラルポリシーの解釈可能性について,不整合表現レンズを用いて検討する。
決定木を利用して,ロボット学習における絡み合いの要因を抽出する。
学習したニューラルダイナミクスの絡み合いを計測する解釈可能性指標を導入する。
論文 参考訳(メタデータ) (2022-10-13T01:10:41Z) - Local Interpretations for Explainable Natural Language Processing: A Survey [5.717407321642629]
本研究では,自然言語処理(NLP)タスクにおけるディープニューラルネットワークの解釈可能性を改善するための様々な手法について検討する。
本研究のはじめに,解釈可能性という用語の定義とその諸側面について,包括的に議論する。
論文 参考訳(メタデータ) (2021-03-20T02:28:33Z) - Interpretable Deep Learning: Interpretations, Interpretability,
Trustworthiness, and Beyond [49.93153180169685]
一般に混同される2つの基本的な概念(解釈と解釈可能性)を紹介・明らかにする。
我々は,新しい分類法を提案することにより,異なる視点から,最近のいくつかの解釈アルゴリズムの設計を詳細に述べる。
信頼される」解釈アルゴリズムを用いてモデルの解釈可能性を評価する上での既存の作業をまとめる。
論文 参考訳(メタデータ) (2021-03-19T08:40:30Z) - Neuro-symbolic Architectures for Context Understanding [59.899606495602406]
本稿では,データ駆動型アプローチと知識駆動型アプローチの強みを組み合わせたフレームワークとして,ハイブリッドAI手法を提案する。
具体的には、知識ベースを用いて深層ニューラルネットワークの学習過程を導く方法として、ニューロシンボリズムの概念を継承する。
論文 参考訳(メタデータ) (2020-03-09T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。