論文の概要: VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning
- arxiv url: http://arxiv.org/abs/2203.10444v2
- Date: Fri, 26 May 2023 09:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 00:26:00.711587
- Title: VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning
- Title(参考訳): VGSE: ゼロショット学習のためのビジュアルグラウンドセマンティック埋め込み
- Authors: Wenjia Xu, Yongqin Xian, Jiuniu Wang, Bernt Schiele, Zeynep Akata
- Abstract要約: ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
- 参考スコア(独自算出の注目度): 113.50220968583353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-annotated attributes serve as powerful semantic embeddings in zero-shot
learning. However, their annotation process is labor-intensive and needs expert
supervision. Current unsupervised semantic embeddings, i.e., word embeddings,
enable knowledge transfer between classes. However, word embeddings do not
always reflect visual similarities and result in inferior zero-shot
performance. We propose to discover semantic embeddings containing
discriminative visual properties for zero-shot learning, without requiring any
human annotation. Our model visually divides a set of images from seen classes
into clusters of local image regions according to their visual similarity, and
further imposes their class discrimination and semantic relatedness. To
associate these clusters with previously unseen classes, we use external
knowledge, e.g., word embeddings and propose a novel class relation discovery
module. Through quantitative and qualitative evaluation, we demonstrate that
our model discovers semantic embeddings that model the visual properties of
both seen and unseen classes. Furthermore, we demonstrate on three benchmarks
that our visually-grounded semantic embeddings further improve performance over
word embeddings across various ZSL models by a large margin.
- Abstract(参考訳): 人間アノテーション属性はゼロショット学習における強力なセマンティック埋め込みとして機能する。
しかし、アノテーションプロセスは労働集約的であり、専門家の監督が必要である。
現在の教師なしセマンティック埋め込み、すなわち単語埋め込みは、クラス間の知識伝達を可能にする。
しかし、単語埋め込みは必ずしも視覚的な類似性を反映せず、ゼロショット性能を低下させる。
ゼロショット学習のための識別的視覚特性を含む意味的埋め込みを,人間の注釈を必要とせずに発見する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に分割し,そのクラス識別と意味的関連性を付加する。
これらのクラスタを未確認のクラスに関連付けるために、単語埋め込みなどの外部知識を使用し、新しいクラス関係発見モジュールを提案する。
定量的・定性的評価により,本モデルでは視認クラスと視認クラスの両方の視覚特性をモデル化する意味埋め込みを探索する。
さらに,様々なzslモデルにまたがる単語埋め込みよりも,視覚的に接する意味埋め込みの性能が,大きなマージンで向上することを示す3つのベンチマークを実演した。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - Primitive Generation and Semantic-related Alignment for Universal
Zero-Shot Segmentation [13.001629605405954]
本研究では, トレーニングサンプルを使わずに, 新規カテゴリのパノプティクス, 例えば, セマンティックセマンティックセマンティックセマンティックセマンティクスを実現するために, ユニバーサルゼロショットセマンティクスについて検討する。
本稿では,意味空間と視覚空間を関連づけた未知のカテゴリの特徴を合成する生成モデルを提案する。
提案手法は、ゼロショットパノプティクスのセグメンテーション、インスタンスセグメンテーション、セマンティックセグメンテーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T17:59:16Z) - Exploiting Semantic Attributes for Transductive Zero-Shot Learning [97.61371730534258]
ゼロショット学習は、視覚的特徴と、そのクラスから学んだ意味的属性の関係を一般化することにより、目に見えないクラスを認識することを目的としている。
本稿では,未知データの意味的属性を生成し,生成過程に付加する新しいZSL法を提案する。
5つの標準ベンチマーク実験により,本手法がゼロショット学習の最先端結果をもたらすことが示された。
論文 参考訳(メタデータ) (2023-03-17T09:09:48Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Disentangling Visual Embeddings for Attributes and Objects [38.27308243429424]
オブジェクト属性認識における合成ゼロショット学習の問題点について検討する。
以前の作業では、オブジェクト分類のために事前訓練されたバックボーンネットワークで抽出された視覚的特徴を使用する。
視覚空間における属性とオブジェクトの特徴をアンタングルできる新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-17T17:59:36Z) - Language Models as Zero-shot Visual Semantic Learners [0.618778092044887]
本研究では,文脈的単語埋め込みのセマンティック情報を探索するためのVisual Se-mantic Embedding Probe (VSEP)を提案する。
文脈表現を持つVSEPは、複雑な場面における単語レベルのオブジェクト表現を合成ゼロショット学習者として区別することができる。
言語モーダルにおける文脈表現は, オブジェクトの合成連鎖が短い場合, 静的単語埋め込みよりも優れることがわかった。
論文 参考訳(メタデータ) (2021-07-26T08:22:55Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。