論文の概要: Attributing Learned Concepts in Neural Networks to Training Data
- arxiv url: http://arxiv.org/abs/2310.03149v1
- Date: Wed, 4 Oct 2023 20:26:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 20:20:36.335496
- Title: Attributing Learned Concepts in Neural Networks to Training Data
- Title(参考訳): ニューラルネットワークにおける学習概念の学習データへの寄与
- Authors: Nicholas Konz, Charles Godfrey, Madelyn Shapiro, Jonathan Tu, Henry
Kvinge, Davis Brown
- Abstract要約: コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再トレーニングを行うと,ネットワーク内の概念の位置が変化しない。
このことは、概念の発達を知らせる特徴が、概念形成の堅牢さを暗示して、その先例にまたがるより拡散した方法で広がることを示唆している。
- 参考スコア(独自算出の注目度): 5.930268338525991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: By now there is substantial evidence that deep learning models learn certain
human-interpretable features as part of their internal representations of data.
As having the right (or wrong) concepts is critical to trustworthy machine
learning systems, it is natural to ask which inputs from the model's original
training set were most important for learning a concept at a given layer. To
answer this, we combine data attribution methods with methods for probing the
concepts learned by a model. Training network and probe ensembles for two
concept datasets on a range of network layers, we use the recently developed
TRAK method for large-scale data attribution. We find some evidence for
convergence, where removing the 10,000 top attributing images for a concept and
retraining the model does not change the location of the concept in the network
nor the probing sparsity of the concept. This suggests that rather than being
highly dependent on a few specific examples, the features that inform the
development of a concept are spread in a more diffuse manner across its
exemplars, implying robustness in concept formation.
- Abstract(参考訳): 現在までに、深層学習モデルは、データの内部表現の一部として、特定の人間解釈可能な特徴を学習する証拠がかなりある。
正しい(あるいは間違った)概念を持つことは、信頼できる機械学習システムにとって重要であるため、モデルの元々のトレーニングセットからのインプットが、与えられたレイヤで概念を学ぶ上で最も重要であったかを尋ねるのは当然です。
そこで本研究では,データ帰属法とモデルで学習した概念を探索する手法を組み合わせる。
ネットワーク層における2つの概念データセットに対するネットワークとプローブアンサンブルの訓練を行い,大規模データ帰属のためのTRAK法を開発した。
コンバージェンス(収束)の証拠として,概念の上位1万個の画像を取り除き,モデルの再訓練を行うことで,ネットワーク内の概念の位置や概念の空間性が変化しないことがある。
これは、いくつかの特定の例に強く依存するのではなく、概念の発展を知らせる特徴が、その例全体により広範に広がり、概念形成における堅牢性が示唆されることを示唆している。
関連論文リスト
- Restyling Unsupervised Concept Based Interpretable Networks with Generative Models [14.604305230535026]
本稿では,事前学習された生成モデルの潜在空間に概念特徴をマッピングすることに依存する新しい手法を提案する。
本手法の有効性を,解釈可能な予測ネットワークの精度,再現性,学習概念の忠実性,一貫性の観点から定量的に検証した。
論文 参考訳(メタデータ) (2024-07-01T14:39:41Z) - Concept Distillation: Leveraging Human-Centered Explanations for Model
Improvement [3.026365073195727]
概念活性化ベクトル(Concept Activation Vectors, CAV)は、ある概念に対するモデルの感度と潜在的なバイアスを推定する。
微調整によりモデルバイアスを低減するため,CAVをポストホック解析からアンテホックトレーニングに拡張する。
本稿では,いくつかの分類問題に対する概念感受性トレーニングの応用について述べる。
論文 参考訳(メタデータ) (2023-11-26T14:00:14Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Uncovering Unique Concept Vectors through Latent Space Decomposition [0.0]
概念に基づく説明は、特徴帰属推定よりも解釈可能な優れたアプローチとして現れてきた。
本稿では,訓練中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。
実験の結果、我々の概念の大部分は、人間にとって容易に理解でき、一貫性を示し、目の前の課題に関連があることが判明した。
論文 参考訳(メタデータ) (2023-07-13T17:21:54Z) - Hierarchical Semantic Tree Concept Whitening for Interpretable Image
Classification [19.306487616731765]
ポストホック分析は、モデルに自然に存在するパターンやルールのみを発見することができる。
我々は、隠された層における人間の理解可能な概念の表現を変えるために、積極的に知識を注入する。
本手法は,モデル分類性能に悪影響を及ぼすことなく,セマンティックな概念の絡み合いを良くし,モデルの解釈可能性を向上させる。
論文 参考訳(メタデータ) (2023-07-10T04:54:05Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Concept-Based Explanations for Tabular Data [0.0]
ディープニューラルネットワーク(DNN)のための概念に基づく説明可能性を提案する。
本研究では,人間レベルの直観に合致する解釈可能性を示す手法の有効性を示す。
また,DNNのどの層がどの層を学習したのかを定量化したTCAVに基づく公平性の概念を提案する。
論文 参考訳(メタデータ) (2022-09-13T02:19:29Z) - Human-Centered Concept Explanations for Neural Networks [47.71169918421306]
概念活性化ベクトル(Concept Activation Vectors, CAV)のクラスを含む概念的説明を紹介する。
次に、自動的に概念を抽出するアプローチと、それらの注意事項に対処するアプローチについて議論する。
最後に、このような概念に基づく説明が、合成設定や実世界の応用において有用であることを示すケーススタディについて論じる。
論文 参考訳(メタデータ) (2022-02-25T01:27:31Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Adversarially-Trained Deep Nets Transfer Better: Illustration on Image
Classification [53.735029033681435]
トランスファーラーニングは、訓練済みのディープニューラルネットワークを画像認識タスクに新しいドメインに適用するための強力な方法論である。
本研究では,非逆学習モデルよりも逆学習モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2020-07-11T22:48:42Z) - The large learning rate phase of deep learning: the catapult mechanism [50.23041928811575]
問題解決可能なトレーニングダイナミクスを備えたニューラルネットワークのクラスを提示する。
現実的なディープラーニング環境において,モデルの予測とトレーニングのダイナミクスとの間には,よい一致がある。
我々の結果は、異なる学習率でトレーニングされたモデルの特性に光を当てたと信じています。
論文 参考訳(メタデータ) (2020-03-04T17:52:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。