論文の概要: Concept Probing: Where to Find Human-Defined Concepts (Extended Version)
- arxiv url: http://arxiv.org/abs/2507.18681v1
- Date: Thu, 24 Jul 2025 16:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.705979
- Title: Concept Probing: Where to Find Human-Defined Concepts (Extended Version)
- Title(参考訳): 概念探索:人間によって決定された概念をどこに見つけるか(拡張版)
- Authors: Manuel de Sousa Ribeiro, Afonso Leote, João Leite,
- Abstract要約: 本研究では,ニューラルネットワークモデルにおけるどのレイヤの表現を,人が定義した関心を持つ概念を探索する際に考慮すべきかを自動的に識別する手法を提案する。
我々は、異なるニューラルネットワークモデルとデータセットに対する徹底的な経験的分析を通じて、この結果を検証する。
- 参考スコア(独自算出の注目度): 3.2443914909457594
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Concept probing has recently gained popularity as a way for humans to peek into what is encoded within artificial neural networks. In concept probing, additional classifiers are trained to map the internal representations of a model into human-defined concepts of interest. However, the performance of these probes is highly dependent on the internal representations they probe from, making identifying the appropriate layer to probe an essential task. In this paper, we propose a method to automatically identify which layer's representations in a neural network model should be considered when probing for a given human-defined concept of interest, based on how informative and regular the representations are with respect to the concept. We validate our findings through an exhaustive empirical analysis over different neural network models and datasets.
- Abstract(参考訳): 概念探索(concept probing)は、人間が人工ニューラルネットワーク内でコード化されているものを覗く方法として最近人気を集めている。
概念探索において、モデルの内部表現を人間の定義した関心概念にマッピングするために、追加の分類器が訓練される。
しかし、これらのプローブの性能は、それらが探索する内部表現に大きく依存しているため、重要なタスクを探索する適切な層を特定することができる。
本稿では,ニューラルネットワークモデルにおけるどのレイヤの表現を,情報的かつ規則的な表現がどのような意味を持つかに基づいて,人間の定義した関心概念を探索する場合に,どのレイヤの表現を考慮すべきかを自動的に識別する手法を提案する。
我々は、異なるニューラルネットワークモデルとデータセットに対する徹底的な経験的分析を通じて、この結果を検証する。
関連論文リスト
- On the Performance of Concept Probing: The Influence of the Data (Extended Version) [3.2443914909457594]
概念探索は、モデルの内部表現を人間の定義した関心の概念にマッピングするために、追加の分類器を訓練することで機能する。
概念探索の研究は、主に調査対象のモデルや、探索対象のモデル自体に焦点を当てている。
本稿では,探索モデルの訓練に使用するデータが性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-07-24T16:18:46Z) - Concept-Guided Interpretability via Neural Chunking [54.73787666584143]
ニューラルネットワークは、トレーニングデータの規則性を反映した生の集団活動のパターンを示す。
本稿では,ラベルの可利用性と次元性に基づいて,これら新たな実体を抽出する3つの手法を提案する。
私たちの研究は、認知原則と自然主義的データの構造の両方を活用する、解釈可能性の新しい方向性を指し示しています。
論文 参考訳(メタデータ) (2025-05-16T13:49:43Z) - Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Discover-then-Name: Task-Agnostic Concept Bottlenecks via Automated Concept Discovery [52.498055901649025]
ディープニューラルネットワークの「ブラックボックス」問題に対処するために、概念ボトルネックモデル(CBM)が提案されている。
本稿では,典型的なパラダイムを逆転させる新しいCBMアプローチであるDiscover-then-Name-CBM(DN-CBM)を提案する。
我々の概念抽出戦略は、下流のタスクに非依存であり、既にそのモデルに知られている概念を使用するため、効率的である。
論文 参考訳(メタデータ) (2024-07-19T17:50:11Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Manipulating Feature Visualizations with Gradient Slingshots [53.94925202421929]
特徴可視化(FV)は、ディープニューラルネットワーク(DNN)で学んだ概念を解釈するための広く使われている手法である。
本稿では,モデルアーキテクチャを変更したり,性能を著しく劣化させたりすることなくFVの操作を可能にする新しい手法,Gradient Slingshotsを提案する。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Understanding Distributed Representations of Concepts in Deep Neural
Networks without Supervision [25.449397570387802]
本稿では,ニューロンの主部分集合を選択することによって,概念の分散表現を発見する教師なし手法を提案する。
我々の経験から、類似のニューロン活性化状態のインスタンスはコヒーレントな概念を共有する傾向があることが示されている。
データ内のラベルなしサブクラスを特定し、誤分類の原因を検出するために利用することができる。
論文 参考訳(メタデータ) (2023-12-28T07:33:51Z) - Concept backpropagation: An Explainable AI approach for visualising
learned concepts in neural network models [0.0]
本稿では,ある概念を表す情報が与えられたニューラルネットワークモデルにどのように内在化されているかを分析する方法として,Emphconcept backpropagationという概念検出手法の拡張を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:21:13Z) - A Recursive Bateson-Inspired Model for the Generation of Semantic Formal
Concepts from Spatial Sensory Data [77.34726150561087]
本稿では,複雑な感覚データから階層構造を生成するための記号のみの手法を提案する。
このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。
このモデルは、トレーニングなしでかなりリッチだが人間に読まれる概念表現を生成することができる。
論文 参考訳(メタデータ) (2023-07-16T15:59:13Z) - Evaluating alignment between humans and neural network representations in image-based learning tasks [5.657101730705275]
トレーニング済みの860ドルのニューラルネットワークモデルの表現が、人間の学習軌跡にどのようにマッピングされているかテストしました。
トレーニングデータセットのサイズは人間の選択に沿った中核的な決定要因であるのに対し、マルチモーダルデータ(テキストと画像)による対照的なトレーニングは、人間の一般化を予測するために現在公開されているモデルの一般的な特徴であることがわかった。
結論として、事前訓練されたニューラルネットワークは、タスク間で伝達可能な認知の基本的な側面を捉えているように見えるため、認知モデルのための表現を抽出するのに役立つ。
論文 参考訳(メタデータ) (2023-06-15T08:18:29Z) - On Modifying a Neural Network's Perception [3.42658286826597]
本研究では,人間の定義した概念に対して,人工ニューラルネットワークが知覚しているものを修正する手法を提案する。
提案手法を異なるモデルで検証し、実行された操作がモデルによって適切に解釈されているかどうかを評価し、それらに対してどのように反応するかを解析する。
論文 参考訳(メタデータ) (2023-03-05T12:09:37Z) - Neural Networks with Recurrent Generative Feedback [61.90658210112138]
畳み込みニューラルネットワーク(CNN)でこの設計をインスタンス化する
実験では、標準ベンチマーク上の従来のフィードフォワードCNNに対して、CNN-Fは敵のロバスト性を大幅に改善した。
論文 参考訳(メタデータ) (2020-07-17T19:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。