論文の概要: Beyond Scalars: Concept-Based Alignment Analysis in Vision Transformers
- arxiv url: http://arxiv.org/abs/2412.06639v1
- Date: Mon, 09 Dec 2024 16:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:58:48.832509
- Title: Beyond Scalars: Concept-Based Alignment Analysis in Vision Transformers
- Title(参考訳): Beyond Scalars: ビジョントランスフォーマーにおける概念ベースのアライメント分析
- Authors: Johanna Vielhaben, Dilyara Bareeva, Jim Berend, Wojciech Samek, Nils Strodthoff,
- Abstract要約: ビジョントランスフォーマー(ViT)は、完全な教師付きから自己教師型まで、さまざまな学習パラダイムを使って訓練することができる。
そこで本研究では,4種類のViTから表現する概念に基づくアライメント解析を提案する。
概念に基づく4つの異なるViTの表現のアライメント解析により、教師シップの増大と学習した表現の意味構造の低下が相関していることが明らかとなった。
- 参考スコア(独自算出の注目度): 10.400355814467401
- License:
- Abstract: Vision transformers (ViTs) can be trained using various learning paradigms, from fully supervised to self-supervised. Diverse training protocols often result in significantly different feature spaces, which are usually compared through alignment analysis. However, current alignment measures quantify this relationship in terms of a single scalar value, obscuring the distinctions between common and unique features in pairs of representations that share the same scalar alignment. We address this limitation by combining alignment analysis with concept discovery, which enables a breakdown of alignment into single concepts encoded in feature space. This fine-grained comparison reveals both universal and unique concepts across different representations, as well as the internal structure of concepts within each of them. Our methodological contributions address two key prerequisites for concept-based alignment: 1) For a description of the representation in terms of concepts that faithfully capture the geometry of the feature space, we define concepts as the most general structure they can possibly form - arbitrary manifolds, allowing hidden features to be described by their proximity to these manifolds. 2) To measure distances between concept proximity scores of two representations, we use a generalized Rand index and partition it for alignment between pairs of concepts. We confirm the superiority of our novel concept definition for alignment analysis over existing linear baselines in a sanity check. The concept-based alignment analysis of representations from four different ViTs reveals that increased supervision correlates with a reduction in the semantic structure of learned representations.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は、完全な教師付きから自己教師型まで、さまざまな学習パラダイムを使って訓練することができる。
様々なトレーニングプロトコルは、しばしば異なる特徴空間をもたらし、通常はアライメント解析によって比較される。
しかし、現在のアライメント測度は、単一のスカラー値の観点からこの関係を定量化し、同じスカラーアライメントを共有する表現のペアにおいて、共通の特徴とユニークな特徴の区別を無視する。
特徴空間に符号化された単一概念へのアライメントの分解を可能にする、アライメント解析と概念発見を組み合わせることで、この制限に対処する。
このきめ細かい比較は、異なる表現にまたがる普遍的概念とユニークな概念の両方と、それぞれの概念の内部構造を明らかにしている。
我々の方法論的貢献は、概念に基づくアライメントのための2つの重要な前提に対処する。
1) 特徴空間の幾何学を忠実に捉えた概念の表現を記述するために、我々は概念を最も一般的な構造 - 任意の多様体 - として定義し、これらの多様体に近接して隠れた特徴を記述する。
2つの表現のコンセプト近接スコア間の距離を測定するために、一般化されたRandインデックスを使用し、ペアのコンセプト間のアライメントに分割する。
正当性チェックにおいて,既存の線形ベースラインに対するアライメント解析における新しい概念定義の優位性を確認した。
概念に基づく4つの異なるViTの表現のアライメント解析により、教師シップの増大と学習した表現の意味構造の低下が相関していることが明らかとなった。
関連論文リスト
- Local Concept Embeddings for Analysis of Concept Distributions in DNN Feature Spaces [1.0923877073891446]
我々はディープニューラルネットワーク(DNN)のための新しい概念分析フレームワークを提案する。
完全なデータセット上で単一のグローバルな概念ベクトルを最適化する代わりに、個々のサンプルに対してローカルな概念埋め込み(LoCE)ベクトルを生成する。
文脈感度にもかかわらず,提案手法のセグメンテーション性能はグローバルベースラインと競合する。
論文 参考訳(メタデータ) (2023-11-24T12:22:00Z) - Identifying Linear Relational Concepts in Large Language Models [16.917379272022064]
トランスフォーマー言語モデル(LM)は、隠れたアクティベーションの潜在空間における方向として概念を表現することが示されている。
本稿では,リレーショナル・リレーショナル・コンセプト (LRC) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T14:01:41Z) - Disentangling Multi-view Representations Beyond Inductive Bias [32.15900989696017]
本稿では,表現の解釈可能性と一般化性を両立させる新しい多視点表現分離手法を提案する。
提案手法は,クラスタリングと分類性能において,12種類の比較手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-08-03T09:09:28Z) - Identifying Interpretable Subspaces in Image Representations [54.821222487956355]
コントラスト概念(FALCON)を用いて画像表現の特徴を説明する枠組みを提案する。
ターゲット機能として、FALCONは、大きなキャプションデータセットとCLIPのようなトレーニング済みの視覚言語モデルを使用して、高機能なトリミング画像をキャプションする。
キャプション内の各単語は、少数の共有された人間の理解可能な概念に導かれ、ランク付けされる。
論文 参考訳(メタデータ) (2023-07-20T00:02:24Z) - A Probabilistic Relaxation of the Two-Stage Object Pose Estimation
Paradigm [0.0]
オブジェクトポーズ推定のためのマッチングのない確率的定式化を提案する。
視覚的対応と幾何学的アライメントの両方を統一的かつ同時に最適化することができる。
これは、おそらくのポーズの分布全体の異なる可算モードを表現することができる。
論文 参考訳(メタデータ) (2023-06-01T16:50:40Z) - Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。
セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文 参考訳(メタデータ) (2023-05-20T15:48:47Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Measuring the Interpretability of Unsupervised Representations via
Quantized Reverse Probing [97.70862116338554]
本稿では,自己教師付き表現の解釈可能性の測定問題について検討する。
我々は、後者を、表現と手動でラベル付けされた概念の空間の間の相互情報を推定するものとして定式化する。
提案手法は,多人数の自己教師付き表現の評価に利用し,解釈可能性による評価を行う。
論文 参考訳(メタデータ) (2022-09-07T16:18:50Z) - Concept Gradient: Concept-based Interpretation Without Linear Assumption [77.96338722483226]
概念活性化ベクトル(Concept Activation Vector, CAV)は、与えられたモデルと概念の潜在表現の間の線形関係を学習することに依存する。
我々は、線形概念関数を超えて概念に基づく解釈を拡張する概念グラディエント(CG)を提案した。
我々は、CGがおもちゃの例と実世界のデータセットの両方でCAVより優れていることを実証した。
論文 参考訳(メタデータ) (2022-08-31T17:06:46Z) - Toward a Visual Concept Vocabulary for GAN Latent Space [74.12447538049537]
本稿では,GANの潜在空間で表現される原始視覚概念のオープンエンド語彙を構築するための新しい手法を提案する。
提案手法は, 層選択性に基づく知覚的正当方向の自動識別, 自由形, 構成的自然言語記述による人為的アノテーションの3つの要素から構成される。
実験により、我々のアプローチで学んだ概念は信頼性があり、構成可能であることが示され、クラス、コンテキスト、オブザーバをまたいで一般化される。
論文 参考訳(メタデータ) (2021-10-08T17:58:19Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。