論文の概要: SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2503.10252v1
- Date: Thu, 13 Mar 2025 10:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:52:51.317205
- Title: SVIP: Semantically Contextualized Visual Patches for Zero-Shot Learning
- Title(参考訳): SVIP: ゼロショット学習のためのセマンティック・コンテクスト化されたビジュアルパッチ
- Authors: Zhi Chen, Zecheng Zhao, Jingcai Guo, Jingjing Li, Zi Huang,
- Abstract要約: ゼロショット学習(ZSL)のための意味的文脈付き視覚パッチ(SVIP)を導入する。
本稿では,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
SVIPは、より解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 38.507994878183474
- License:
- Abstract: Zero-shot learning (ZSL) aims to recognize unseen classes without labeled training examples by leveraging class-level semantic descriptors such as attributes. A fundamental challenge in ZSL is semantic misalignment, where semantic-unrelated information involved in visual features introduce ambiguity to visual-semantic interaction. Unlike existing methods that suppress semantic-unrelated information post hoc either in the feature space or the model space, we propose addressing this issue at the input stage, preventing semantic-unrelated patches from propagating through the network. To this end, we introduce Semantically contextualized VIsual Patches (SVIP) for ZSL, a transformer-based framework designed to enhance visual-semantic alignment. Specifically, we propose a self-supervised patch selection mechanism that preemptively learns to identify semantic-unrelated patches in the input space. This is trained with the supervision from aggregated attention scores across all transformer layers, which estimate each patch's semantic score. As removing semantic-unrelated patches from the input sequence may disrupt object structure, we replace them with learnable patch embeddings. With initialization from word embeddings, we can ensure they remain semantically meaningful throughout feature extraction. Extensive experiments on ZSL benchmarks demonstrate that SVIP achieves state-of-the-art performance results while providing more interpretable and semantically rich feature representations.
- Abstract(参考訳): Zero-shot Learning(ZSL)は、属性などのクラスレベルのセマンティック記述子を活用することで、トレーニング例をラベル付けせずに、目に見えないクラスを認識することを目的としている。
ZSLの基本的な課題は意味的ミスアライメントであり、視覚的特徴に関連する意味的無関係な情報が視覚的意味的相互作用にあいまいさをもたらす。
特徴空間やモデル空間において,意味非関連情報をポストホックで抑制する既存の手法とは違って,入力段階でこの問題に対処し,意味非関連パッチがネットワークを介して伝播するのを防ぐ。
この目的のために,ZSLのためのセマンティック・コンテクスト化されたビザル・パッチ (SVIP) を導入し,視覚・セマンティックアライメントを強化するためのトランスフォーマーベースのフレームワークを提案する。
具体的には,入力空間における意味的無関係なパッチを事前に学習する自己教師付きパッチ選択機構を提案する。
これは、各パッチのセマンティックスコアを推定するすべてのトランスフォーマー層にわたるアグリゲートされたアテンションスコアからトレーニングされる。
入力シーケンスから意味不明なパッチを取り除くことでオブジェクト構造が破壊される可能性があるため、学習可能なパッチ埋め込みに置き換える。
単語の埋め込みから初期化することで、特徴抽出を通して意味的に意味を保ち続けることができる。
ZSLベンチマークの大規模な実験により、SVIPはより解釈可能でセマンティックにリッチな特徴表現を提供しながら、最先端のパフォーマンスを実現することが示された。
関連論文リスト
- Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - What Remains of Visual Semantic Embeddings [0.618778092044887]
標準のImageNetベンチマークにおける構造欠陥を回避するため、ZSLタスクにタイレッドイメージネットの分割を導入する。
我々は,ZSLのための統合フレームワークを構築し,コントラスト学習を事前学習とし,セマンティックな情報漏洩を保証している。
我々の研究は、意味推論が決定的なZSL設定上で視覚的セマンティック埋め込みモデルを評価するのに公平である。
論文 参考訳(メタデータ) (2021-07-26T06:55:11Z) - Learning Robust Visual-semantic Mapping for Zero-shot Learning [8.299945169799795]
ZSL(Zero-shot Learning)の重要な構成要素の1つである意味的特徴空間の完全強化に注力する。
ZSLでは、視覚的特徴空間と意味的特徴空間の間のマッピング関数をラベル付きクラス例でトレーニングするのが一般的である。
このようなパラダイムでは、ZSLモデルはマッピング関数を構築および再利用する際にドメインシフトの問題に容易に苦しむ可能性がある。
論文 参考訳(メタデータ) (2021-04-12T17:39:38Z) - Information Bottleneck Constrained Latent Bidirectional Embedding for
Zero-Shot Learning [59.58381904522967]
本稿では,密な視覚-意味的結合制約を持つ埋め込み型生成モデルを提案する。
視覚空間と意味空間の両方の埋め込みパラメトリック分布を校正する統合潜在空間を学習する。
本手法は, 画像のラベルを生成することにより, トランスダクティブZSL設定に容易に拡張できる。
論文 参考訳(メタデータ) (2020-09-16T03:54:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。