論文の概要: Make it SING: Analyzing Semantic Invariants in Classifiers
- arxiv url: http://arxiv.org/abs/2603.14610v2
- Date: Tue, 17 Mar 2026 07:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.942368
- Title: Make it SING: Analyzing Semantic Invariants in Classifiers
- Title(参考訳): Make it SING: 分類器における意味不変量の解析
- Authors: Harel Yadid, Meir Yossef Levi, Roy Betser, Guy Gilboa,
- Abstract要約: 本稿では,ネットワークに関して等価な画像を構築し,利用可能なバリエーションに意味論的解釈を割り当てる手法を提案する。
これにより、帰納的意味変化の自然言語記述と視覚的例を得ることができる。
例えば、ResNet50はnull空間に関連セマンティック属性をリークするのに対して、自己教師付きDINOで事前訓練されたViTであるDinoViTは、不変空間全体のクラスセマンティクスを維持するのに優れている。
- 参考スコア(独自算出の注目度): 7.425558351422133
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: All classifiers, including state-of-the-art vision models, possess invariants, partially rooted in the geometry of their linear mappings. These invariants, which reside in the null-space of the classifier, induce equivalent sets of inputs that map to identical outputs. The semantic content of these invariants remains vague, as existing approaches struggle to provide human-interpretable information. To address this gap, we present Semantic Interpretation of the Null-space Geometry (SING), a method that constructs equivalent images, with respect to the network, and assigns semantic interpretations to the available variations. We use a mapping from network features to multi-modal vision language models. This allows us to obtain natural language descriptions and visual examples of the induced semantic shifts. SING can be applied to a single image, uncovering local invariants, or to sets of images, allowing a breadth of statistical analysis at the class and model levels. For example, our method reveals that ResNet50 leaks relevant semantic attributes to the null space, whereas DinoViT, a ViT pretrained with self-supervised DINO, is superior in maintaining class semantics across the invariant space.
- Abstract(参考訳): 最先端の視覚モデルを含むすべての分類器は不変量を持ち、その線型写像の幾何学に部分的に根付いている。
これらの不変量は分類器のヌル空間に存在し、同じ出力にマップする等価な入力集合を誘導する。
これらの不変量の意味的内容は、既存のアプローチが人間の解釈可能な情報の提供に苦慮しているため、あいまいなままである。
このギャップに対処するために,ネットワークに対して等価な画像を構築する手法であるSING(Semantic Interpretation of the Null-space Geometry)を提案し,利用可能なバリエーションに意味論的解釈を割り当てる。
ネットワーク機能からマルチモーダル視覚言語モデルへのマッピングを利用する。
これにより、帰納的意味変化の自然言語記述と視覚的例を得ることができる。
SINGは1つの画像に適用でき、局所不変量を明らかにするか、あるいは画像の集合に適用される。
例えば、ResNet50はnull空間に関連セマンティック属性をリークするのに対して、自己教師付きDINOで事前訓練されたViTであるDinoViTは、不変空間全体のクラスセマンティクスを維持するのに優れている。
関連論文リスト
- Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Linking in Style: Understanding learned features in deep learning models [0.0]
畳み込みニューラルネットワーク(CNN)は抽象的な特徴を学び、オブジェクト分類を行う。
本稿では,CNNにおける学習特徴を可視化し,体系的に解析する自動手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T12:28:48Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Parts of Speech-Grounded Subspaces in Vision-Language Models [32.497303059356334]
本稿では,CLIPの視覚-言語空間における異なる視覚的モダリティの表現を分離することを提案する。
音声の特定の部分に対応する変動を捉える部分空間を学習し、他の部分への変動を最小化する。
提案手法は,視覚的外観に対応するサブ空間の学習を容易にする。
論文 参考訳(メタデータ) (2023-05-23T13:32:19Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。