論文の概要: S-JEA: Stacked Joint Embedding Architectures for Self-Supervised Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2305.11701v2
- Date: Mon, 04 Nov 2024 19:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:08.267327
- Title: S-JEA: Stacked Joint Embedding Architectures for Self-Supervised Visual Representation Learning
- Title(参考訳): S-JEA: 自己監督型視覚表現学習のためのスタック型共同埋め込みアーキテクチャ
- Authors: Alžběta Manová, Aiden Durrant, Georgios Leontidis,
- Abstract要約: JEA(Joint Embedding Architectures)を積み重ねることで、高度に分離可能な意味的階層表現を学習することを目指している。
この結果、意味論的概念の別個のサブカテゴリを示す表現空間が得られる。
重ねられた JEA の表現は、比較パラメータ数を持つ従来の JEA と同様のレベルで行われることを実証的に示す。
- 参考スコア(独自算出の注目度): 3.1952340441132474
- License:
- Abstract: The recent emergence of Self-Supervised Learning (SSL) as a fundamental paradigm for learning image representations has, and continues to, demonstrate high empirical success in a variety of tasks. However, most SSL approaches fail to learn embeddings that capture hierarchical semantic concepts that are separable and interpretable. In this work, we aim to learn highly separable semantic hierarchical representations by stacking Joint Embedding Architectures (JEA) where higher-level JEAs are input with representations of lower-level JEA. This results in a representation space that exhibits distinct sub-categories of semantic concepts (e.g., model and colour of vehicles) in higher-level JEAs. We empirically show that representations from stacked JEA perform on a similar level as traditional JEA with comparative parameter counts and visualise the representation spaces to validate the semantic hierarchies.
- Abstract(参考訳): イメージ表現を学習するための基本パラダイムとして,近年の自己監視学習(SSL)の出現は,さまざまなタスクにおいて高い経験的成功を証明し続けている。
しかし、ほとんどのSSLアプローチは、分離可能で解釈可能な階層的なセマンティック概念をキャプチャする埋め込みを学ばない。
本研究では,ハイレベルなJEAが低レベルなJEAの表現によって入力されるJEA(Joint Embedding Architectures)を積み重ねることで,高度に分離可能なセマンティックな階層表現を学習することを目的とする。
これにより、ハイレベルなJEAにおける意味概念(例えば、車両のモデルと色)の異なるサブカテゴリを示す表現空間が得られる。
重ねられたJEAの表現は、比較パラメータ数を持つ従来のJEAと同様のレベルで動作し、表現空間を視覚化し、意味的階層性を検証することを実証的に示す。
関連論文リスト
- Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。
本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T14:09:42Z) - A Probabilistic Model Behind Self-Supervised Learning [53.64989127914936]
自己教師付き学習(SSL)では、アノテートラベルなしで補助的なタスクを通じて表現が学習される。
自己教師型学習のための生成潜在変数モデルを提案する。
対照的な方法を含む識別的SSLのいくつかのファミリーは、表現に匹敵する分布を誘導することを示した。
論文 参考訳(メタデータ) (2024-02-02T13:31:17Z) - Enhancing Representations through Heterogeneous Self-Supervised Learning [61.40674648939691]
本稿では,HSSL(Heterogeneous Self-Supervised Learning)を提案する。
HSSLは、構造的変化を伴わない表現学習方式で、ベースモデルに新しい特徴を付与する。
HSSLは、様々な自己教師型メソッドと互換性があり、様々な下流タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-08T10:44:05Z) - HIRL: A General Framework for Hierarchical Image Representation Learning [54.12773508883117]
階層型画像表現学習(HIRL)のための一般的なフレームワークを提案する。
このフレームワークは、各画像の複数の意味表現を学習することを目的としており、これらの表現は、細粒度から粗粒度まで画像意味をエンコードするように構成されている。
確率的因子化に基づいて、HIRLはオフザシェルフ画像SSLアプローチにより最もきめ細かいセマンティクスを学習し、新しいセマンティクスパス識別方式により複数の粗いセマンティクスを学習する。
論文 参考訳(メタデータ) (2022-05-26T05:13:26Z) - VGSE: Visually-Grounded Semantic Embeddings for Zero-Shot Learning [113.50220968583353]
ゼロショット学習のための識別的視覚特性を含むセマンティック埋め込みを発見することを提案する。
本モデルでは,画像の集合を視覚的類似性に応じて局所的な画像領域の集合に視覚的に分割する。
視覚的に接地されたセマンティック埋め込みは、様々なZSLモデルにまたがる単語埋め込みよりも、大きなマージンで性能を向上することを示した。
論文 参考訳(メタデータ) (2022-03-20T03:49:02Z) - Building a visual semantics aware object hierarchy [0.0]
視覚的意味論を意識したオブジェクト階層を構築するための新しい教師なし手法を提案する。
この論文の直感は、概念が階層的に組織化されている現実世界の知識表現から来ています。
評価は2つの部分から構成され、まず、構築された階層をオブジェクト認識タスクに適用し、その上で、視覚的階層と既存の語彙階層を比較して、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-02-26T00:10:21Z) - HCSC: Hierarchical Contrastive Selective Coding [44.655310210531226]
Hierarchical Contrastive Selective Coding (HCSC)は、新しいコントラスト学習フレームワークである。
画像表現をセマンティック構造に適合させるための精巧なペア選択方式を提案する。
我々は,最先端のコントラスト法よりもHCSCの優れた性能を検証した。
論文 参考訳(メタデータ) (2022-02-01T15:04:40Z) - Task-Independent Knowledge Makes for Transferable Representations for
Generalized Zero-Shot Learning [77.0715029826957]
一般化されたゼロショット学習(GZSL)は、転送可能な画像表現を学習することによって新しいカテゴリを認識する。
タスク固有とタスク非依存の知識を同時に学習する新しいデュアルコントラスト埋め込みネットワーク(DCEN)を提案する。
論文 参考訳(メタデータ) (2021-04-05T10:05:48Z) - Revisiting Contrastive Learning for Few-Shot Classification [74.78397993160583]
インスタンス識別に基づくコントラスト学習は,視覚表現の自己教師あり学習の指導的アプローチとして現れてきた。
本稿では,インスタンス識別に基づくコントラスト型自己教師付き学習フレームワークにおいて,新しいタスクを一般化する表現を学習する方法を示す。
提案手法は,cidを用いて訓練された普遍的埋め込みと組み合わせて,挑戦的メタデータセットベンチマークにおいて最先端アルゴリズムよりも優れる新しいモデル選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-26T19:58:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。