論文の概要: Explaining the Impact of Training on Vision Models via Activation Clustering
- arxiv url: http://arxiv.org/abs/2411.19700v2
- Date: Wed, 19 Feb 2025 18:21:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 15:43:05.891651
- Title: Explaining the Impact of Training on Vision Models via Activation Clustering
- Title(参考訳): アクティベーションクラスタリングによる視覚モデルに対するトレーニングの影響について
- Authors: Ahcène Boubekki, Samuel G. Fadel, Sebastian Mair,
- Abstract要約: 本稿では,凍結したネットワークの機能的アクティベーションをクラスタリングすることで,エンコーダが取得した情報を抽出するニューロアクティベート・ビジョン・エクスプメンテーション(NAVE)を提案する。
NAVEはモデルの予測を説明するのではなく、どの部分を同じように処理するか、どの情報をより深い層に保持するかといった質問に答える。
- 参考スコア(独自算出の注目度): 2.8792218859042453
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in the field of explainable artificial intelligence (XAI) for vision models investigate the information extracted by their feature encoder. We contribute to this effort and propose Neuro-Activated Vision Explanations (NAVE), which extracts the information captured by the encoder by clustering the feature activations of the frozen network to be explained. The method does not aim to explain the model's prediction but to answer questions such as which parts of the image are processed similarly or which information is kept in deeper layers. Experimentally, we leverage NAVE to show that the training dataset and the level of supervision affect which concepts are captured. In addition, our method reveals the impact of registers on vision transformers (ViT) and the information saturation caused by the watermark Clever Hans effect in the training set.
- Abstract(参考訳): 視覚モデルのための説明可能な人工知能(XAI)の分野での最近の進歩は、それらの特徴エンコーダによって抽出された情報を調べる。
我々はこの取り組みに寄与し、説明すべき凍結ネットワークの特徴活性化をクラスタ化することにより、エンコーダが捉えた情報を抽出する神経活性化視覚説明(NAVE)を提案する。
この方法はモデルの予測を説明することではなく、画像のどの部分を同じように処理するか、どの情報をより深い層に保持するかといった質問に答えることを目的としている。
実験では、NAVEを活用して、トレーニングデータセットと監視レベルが、どのコンセプトをキャプチャしたかに影響を与えることを示す。
さらに,本手法は,視覚変換器(ViT)に対するレジスタの影響と,トレーニングセットにおける透かしClever Hans効果による情報飽和を明らかにする。
関連論文リスト
- Sparse Autoencoders for Scientifically Rigorous Interpretation of Vision Models [27.806966289284528]
本稿では、スパースオートエンコーダ(SAE)を用いて、人間の解釈可能な視覚的特徴を発見する統一的なフレームワークを提案する。
そこで本研究では,SAEがモデル再学習を行なわずに,解釈可能な視覚特徴を確実に識別・操作できることを示す。
論文 参考訳(メタデータ) (2025-02-10T18:32:41Z) - ViTOC: Vision Transformer and Object-aware Captioner [0.0]
ViTOCは画像キャプションのための視覚言語モデルであり、生成された記述の正確さと多様性の課題に対処する。
事前訓練された視覚モデルパラメータを利用することで、ViTOCは効率的なエンドツーエンドトレーニングを実現する。
論文 参考訳(メタデータ) (2024-11-09T13:13:49Z) - Enhancing Neural Network Interpretability Through Conductance-Based Information Plane Analysis [0.0]
インフォメーションプレーン(Information Plane)は、ニューラルネットワーク内の情報の流れを分析するための概念的フレームワークである。
本稿では,入力特徴に対する感度尺度であるレイヤコンダクタンスを用いて情報平面解析を強化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-26T23:10:42Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - Automatic Discovery of Visual Circuits [66.99553804855931]
本稿では,視覚モデルにおける視覚的概念の認識の基盤となる計算グラフのサブグラフを抽出するスケーラブルな手法について検討する。
提案手法は, モデル出力に因果的に影響を及ぼす回路を抽出し, これらの回路を編集することで, 敵攻撃から大きな事前学習モデルを守ることができることがわかった。
論文 参考訳(メタデータ) (2024-04-22T17:00:57Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Manipulating Feature Visualizations with Gradient Slingshots [54.31109240020007]
本稿では,モデルの決定過程に大きな影響を及ぼすことなく,特徴可視化(FV)を操作する新しい手法を提案する。
ニューラルネットワークモデルにおける本手法の有効性を評価し,任意の選択したニューロンの機能を隠蔽する能力を示す。
論文 参考訳(メタデータ) (2024-01-11T18:57:17Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - TVE: Learning Meta-attribution for Transferable Vision Explainer [76.68234965262761]
本稿では,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を提案する。
TVEは,大規模データセットの事前学習プロセスを通じて,メタ属性の学習を実現する。
このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEがシームレスに転送し、様々な下流タスクを説明することを可能にする。
論文 参考訳(メタデータ) (2023-12-23T21:49:23Z) - Visualizing Transferred Knowledge: An Interpretive Model of Unsupervised
Domain Adaptation [70.85686267987744]
教師なしのドメイン適応問題は、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することができる。
本稿では、翻訳された知識の謎を視覚的に明らかにする最初の試みとして、教師なしドメイン適応の解釈モデルを提案する。
提案手法は,ベースモデルの予測を直感的に説明し,画像パッチをソースドメインとターゲットドメインの両方で同一のセマンティクスとマッチングすることで伝達知識を公開する。
論文 参考訳(メタデータ) (2023-03-04T03:02:12Z) - A Detailed Study of Interpretability of Deep Neural Network based Top
Taggers [3.8541104292281805]
説明可能なAI(XAI)の最近の進歩により、研究者はディープニューラルネットワーク(DNN)の内部動作を探索できる。
大型ハドロン衝突型加速器(LHC)における高エネルギー陽子-陽子衝突におけるトップクォーク崩壊からのジェットの解釈可能性について検討する。
本研究は,既存のXAI手法の大きな落とし穴を明らかにし,これらのモデルの一貫性と意味のある解釈をいかに克服できるかを説明する。
論文 参考訳(メタデータ) (2022-10-09T23:02:42Z) - Entity-Conditioned Question Generation for Robust Attention Distribution
in Neural Information Retrieval [51.53892300802014]
教師付きニューラル情報検索モデルでは,通過トークンよりも疎注意パターンを学習することが困難であることを示す。
目的とする新しい合成データ生成手法を用いて、与えられた通路内の全てのエンティティに対して、より均一で堅牢な参加をニューラルIRに教える。
論文 参考訳(メタデータ) (2022-04-24T22:36:48Z) - Perception Visualization: Seeing Through the Eyes of a DNN [5.9557391359320375]
我々は、Grad-CAMのような現在の説明方法と本質的に異なる、新しい説明形式を開発する。
知覚可視化は、DNNが入力画像で知覚するものの視覚的表現を提供する。
ユーザスタディの結果から,認識の可視化が可能になった場合,人間がシステムの判断をよりよく理解し,予測できることが示される。
論文 参考訳(メタデータ) (2022-04-21T07:18:55Z) - T3-Vis: a visual analytic framework for Training and fine-Tuning
Transformers in NLP [0.0]
本稿では,研究者を支援する視覚分析フレームワークの設計と実装について述べる。
我々のフレームワークは、ユーザーがモデルの異なる面を探索できる直感的な概要を提供する。
これは、モデルコンポーネントと入力シーケンスの異なる部分の重要性を計算する組込みアルゴリズム群を可能にする。
論文 参考訳(メタデータ) (2021-08-31T02:20:46Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Guided Variational Autoencoder for Disentanglement Learning [79.02010588207416]
本稿では,潜在表現非絡み合い学習を行うことで,制御可能な生成モデルを学習できるアルゴリズム,Guided-VAEを提案する。
我々は、ガイド-VAEにおける教師なし戦略と教師なし戦略を設計し、バニラVAE上でのモデリングと制御能力の強化を観察する。
論文 参考訳(メタデータ) (2020-04-02T20:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。