論文の概要: How Well do Feature Visualizations Support Causal Understanding of CNN
Activations?
- arxiv url: http://arxiv.org/abs/2106.12447v1
- Date: Wed, 23 Jun 2021 14:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-24 15:34:31.011099
- Title: How Well do Feature Visualizations Support Causal Understanding of CNN
Activations?
- Title(参考訳): 機能可視化はcnnアクティベーションの因果理解にどの程度有効か?
- Authors: Roland S. Zimmermann, Judy Borowski, Robert Geirhos, Matthias Bethge,
Thomas S. A. Wallis, Wieland Brendel
- Abstract要約: 本研究では,人間に対する単位レベルの解釈可能性手法の利点を定量化するための客観的心理学的課題を提案する。
特徴視覚化が人間に、単純な代替視覚化よりも「因果的理解」を提供するという証拠は見つからない。
- 参考スコア(独自算出の注目度): 30.406219378948606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One widely used approach towards understanding the inner workings of deep
convolutional neural networks is to visualize unit responses via activation
maximization. Feature visualizations via activation maximization are thought to
provide humans with precise information about the image features that cause a
unit to be activated. If this is indeed true, these synthetic images should
enable humans to predict the effect of an intervention, such as whether
occluding a certain patch of the image (say, a dog's head) changes a unit's
activation. Here, we test this hypothesis by asking humans to predict which of
two square occlusions causes a larger change to a unit's activation. Both a
large-scale crowdsourced experiment and measurements with experts show that on
average, the extremely activating feature visualizations by Olah et al. (2017)
indeed help humans on this task ($67 \pm 4\%$ accuracy; baseline performance
without any visualizations is $60 \pm 3\%$). However, they do not provide any
significant advantage over other visualizations (such as e.g. dataset samples),
which yield similar performance ($66 \pm 3\%$ to $67 \pm 3\%$ accuracy). Taken
together, we propose an objective psychophysical task to quantify the benefit
of unit-level interpretability methods for humans, and find no evidence that
feature visualizations provide humans with better "causal understanding" than
simple alternative visualizations.
- Abstract(参考訳): 深層畳み込みニューラルネットワークの内部動作を理解するために広く用いられるアプローチの1つは、アクティベーションの最大化による単位応答の可視化である。
アクティベーションの最大化による特徴可視化は、ユニットをアクティベートする画像の特徴に関する正確な情報を提供すると考えられている。
もしこれが本当なら、これらの合成画像は、画像の特定のパッチ(例えば犬の頭)がユニットのアクティベーションを変化させるかどうかなど、人間が介入の効果を予測できるようにすべきである。
ここでは、2つの正方形のオクルージョンのどれがユニットのアクティベーションに大きな変化を引き起こすかを予測することで、この仮説をテストする。
大規模なクラウドソースによる実験と専門家による測定は、平均的に、Olahらによる非常に活発な特徴視覚化が示している。
(2017年)は確かに、このタスクの人間を助ける(67 \pm 4\%$の正確さ;ベースラインのパフォーマンスは、視覚化なしで60 \pm 3\%$)。
しかし、他の視覚化(例えば、)に比べて大きな優位性は提供されない。
データセットは、同様のパフォーマンスをもたらす(66 \pm 3\%$から676 \pm 3\%$ accuracy)。
本研究では,人間に対する単位レベルの解釈可能性手法の利点を定量化するための客観的心理学的課題を提案し,特徴的可視化が人間の「因果的理解」を,単純な代替的可視化よりも優れていることを示す証拠は見つからない。
関連論文リスト
- Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - Neural feels with neural fields: Visuo-tactile perception for in-hand
manipulation [57.60490773016364]
マルチフィンガーハンドの視覚と触覚を組み合わせることで,手動操作時の物体の姿勢と形状を推定する。
提案手法であるNeuralFeelsは,ニューラルネットワークをオンラインで学習することでオブジェクトの形状を符号化し,ポーズグラフ問題を最適化して共同で追跡する。
私たちの結果は、タッチが少なくとも、洗練され、そして最も最良のものは、手動操作中に視覚的推定を曖昧にすることを示しています。
論文 参考訳(メタデータ) (2023-12-20T22:36:37Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Passive attention in artificial neural networks predicts human visual
selectivity [8.50463394182796]
受動的注意法は人間の視覚的選択性の推定と大きく重なることを示す。
認識実験を用いて,これらの相関関係を因果操作で検証した。
この研究は、人間の視覚のモデルとして、主要なANNの生物学的および心理的妥当性を評価するための新しいアプローチに寄与する。
論文 参考訳(メタデータ) (2021-07-14T21:21:48Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z) - Exemplary Natural Images Explain CNN Activations Better than
State-of-the-Art Feature Visualization [28.111643540535443]
CNNのアクティベーションを予測するのに、非常に活発な画像がどれほど役立つかを計測する。
合成画像は特徴写像の活性化に関する有用な情報を提供する。
しかし、元々はベースラインとして意図されていた自然画像は、広いマージンで合成画像を上回った。
論文 参考訳(メタデータ) (2020-10-23T18:31:13Z) - What Can You Learn from Your Muscles? Learning Visual Representation
from Human Interactions [50.435861435121915]
視覚のみの表現よりも優れた表現を学べるかどうかを調べるために,人間のインタラクションとアテンション・キューを用いている。
実験の結果,我々の「音楽監督型」表現は,視覚のみの最先端手法であるMoCoよりも優れていた。
論文 参考訳(メタデータ) (2020-10-16T17:46:53Z) - Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。
過去30年間に様々な評価方法が提案されてきた。
注意変動を記述するための重力モデル(GRAV)を提案する。
論文 参考訳(メタデータ) (2020-09-15T10:12:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。