論文の概要: Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations
- arxiv url: http://arxiv.org/abs/2312.06716v2
- Date: Thu, 20 Jun 2024 15:57:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 06:08:04.543462
- Title: Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations
- Title(参考訳): 層分散ニューラル表現のスペクトルクラスタリングによる「何」と「何」の視覚経路の解読
- Authors: Xiao Zhang, David Yunis, Michael Maire,
- Abstract要約: 本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。
すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
- 参考スコア(独自算出の注目度): 15.59251297818324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach for analyzing grouping information contained within a neural network's activations, permitting extraction of spatial layout and semantic segmentation from the behavior of large pre-trained vision models. Unlike prior work, our method conducts a holistic analysis of a network's activation state, leveraging features from all layers and obviating the need to guess which part of the model contains relevant information. Motivated by classic spectral clustering, we formulate this analysis in terms of an optimization objective involving a set of affinity matrices, each formed by comparing features within a different layer. Solving this optimization problem using gradient descent allows our technique to scale from single images to dataset-level analysis, including, in the latter, both intra- and inter-image relationships. Analyzing a pre-trained generative transformer provides insight into the computational strategy learned by such models. Equating affinity with key-query similarity across attention layers yields eigenvectors encoding scene spatial layout, whereas defining affinity by value vector similarity yields eigenvectors encoding object identity. This result suggests that key and query vectors coordinate attentional information flow according to spatial proximity (a `where' pathway), while value vectors refine a semantic category representation (a `what' pathway).
- Abstract(参考訳): 本稿では、ニューラルネットワークのアクティベーションに含まれる情報をグループ化して分析し、大規模な事前学習された視覚モデルの振る舞いから空間的レイアウトとセマンティックセグメンテーションを抽出する手法を提案する。
従来の作業とは異なり,本手法では,ネットワークの活性化状態の全体的解析を行い,すべての層の特徴を活かし,どの部分が関連する情報を含んでいるのかを推定する必要性を回避している。
古典的なスペクトルクラスタリングによってモチベーションされたこの分析は、異なる層内の特徴を比較することで、親和性行列の集合を含む最適化目標の観点から定式化する。
勾配勾配勾配法を用いてこの最適化問題を解くことにより,画像内関係と画像間関係の両方を含む,単一画像からデータセットレベルの解析にスケールすることができる。
事前学習された生成変換器の分析は、そのようなモデルによって学習された計算戦略に関する洞察を提供する。
注目層にまたがるキー-クエリの類似性と親和性はシーン空間レイアウトを符号化する固有ベクトルを与えるが、値ベクトル類似性によって親和性を定義すると、オブジェクトアイデンティティを符号化する固有ベクトルが得られる。
この結果は、キーベクトルとクエリベクトルが空間的近接(「場所」経路)に応じて注意情報の流れを調整し、値ベクトルが意味圏表現(「何」経路)を洗練させることを示している。
関連論文リスト
- Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Self-supervised Learning of Contextualized Local Visual Embeddings [0.0]
Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。
CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。
CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
論文 参考訳(メタデータ) (2023-10-01T00:13:06Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - DeepCut: Unsupervised Segmentation using Graph Neural Networks
Clustering [6.447863458841379]
本研究では,従来のクラスタリング手法を置き換える軽量グラフニューラルネットワーク(GNN)を提案する。
既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力として取ります。
画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。
論文 参考訳(メタデータ) (2022-12-12T12:31:46Z) - The SVD of Convolutional Weights: A CNN Interpretability Framework [3.5783190448496343]
本稿では,ハイパーグラフを用いてクラス分離をモデル化する手法を提案する。
ネットワークを説明するためにアクティベーションを見るのではなく、各線形層に対して最大の対応する特異値を持つ特異ベクトルを用いて、ネットワークにとって最も重要な特徴を識別する。
論文 参考訳(メタデータ) (2022-08-14T18:23:02Z) - flow-based clustering and spectral clustering: a comparison [0.688204255655161]
本研究では,本質的なネットワーク構造を持つデータに対する新しいグラフクラスタリング手法を提案する。
我々は、ユークリッド特徴ベクトルを構築するために、データ固有のネットワーク構造を利用する。
以上の結果から,クラスタリング手法が特定のグラフ構造に対処できることが示唆された。
論文 参考訳(メタデータ) (2022-06-20T21:49:52Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - MetaSDF: Meta-learning Signed Distance Functions [85.81290552559817]
ニューラルな暗示表現で形状を一般化することは、各関数空間上の学習先行値に比例する。
形状空間の学習をメタラーニング問題として定式化し、勾配に基づくメタラーニングアルゴリズムを利用してこの課題を解決する。
論文 参考訳(メタデータ) (2020-06-17T05:14:53Z) - Similarity of Neural Networks with Gradients [8.804507286438781]
本稿では,特徴ベクトルと勾配ベクトルの両方を利用してニューラルネットワークの表現を設計することを提案する。
提案手法はニューラルネットワークの類似性を計算するための最先端の手法を提供する。
論文 参考訳(メタデータ) (2020-03-25T17:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。