論文の概要: Self-supervised Learning of Contextualized Local Visual Embeddings
- arxiv url: http://arxiv.org/abs/2310.00527v2
- Date: Tue, 3 Oct 2023 16:31:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 03:51:19.559549
- Title: Self-supervised Learning of Contextualized Local Visual Embeddings
- Title(参考訳): コンテキスト化された局所視覚埋め込みの自己教師あり学習
- Authors: Thalles Santos Silva, Helio Pedrini and Ad\'in Ram\'irez Rivera
- Abstract要約: Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。
CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。
CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Contextualized Local Visual Embeddings (CLoVE), a self-supervised
convolutional-based method that learns representations suited for dense
prediction tasks. CLoVE deviates from current methods and optimizes a single
loss function that operates at the level of contextualized local embeddings
learned from output feature maps of convolution neural network (CNN) encoders.
To learn contextualized embeddings, CLoVE proposes a normalized mult-head
self-attention layer that combines local features from different parts of an
image based on similarity. We extensively benchmark CLoVE's pre-trained
representations on multiple datasets. CLoVE reaches state-of-the-art
performance for CNN-based architectures in 4 dense prediction downstream tasks,
including object detection, instance segmentation, keypoint detection, and
dense pose estimation. Code:
$\href{https://github.com/sthalles/CLoVE}{\text{https://github.com/sthalles/CLoVE}}$.
- Abstract(参考訳): 密集予測タスクに適した表現を学習する自己教師型畳み込み方式であるContextualized Local Visual Embeddings (CLoVE)を提案する。
CLoVEは現在の方法から逸脱し、畳み込みニューラルネットワーク(CNN)エンコーダの出力特徴マップから学習したコンテキスト化ローカル埋め込みのレベルで動作する単一損失関数を最適化する。
CLoVEは、コンテクスト化された埋め込みを学習するために、画像の異なる部分からの局所的な特徴を類似性に基づいて組み合わせた正規化されたマルチヘッド自己アテンション層を提案する。
複数のデータセット上でCLoVEの事前訓練された表現を広範囲にベンチマークする。
cloveは、オブジェクト検出、インスタンスセグメンテーション、キーポイント検出、高密度ポーズ推定を含む4つの密集した下流タスクにおいて、cnnベースのアーキテクチャの最先端のパフォーマンスを達成する。
コード: $\href{https://github.com/sthalles/CLoVE}{\text{https://github.com/sthalles/CLoVE}}$
関連論文リスト
- Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits [59.66134971408414]
博物館展示の微細で構造化された理解にCLIPを適用することを目的としている。
私たちのデータセットは、パブリックドメインで最初のものです。
提案手法(MUZE)は,変換器を用いた解析ネットワーク(parseNet)を用いて,CLIPのイメージ埋め込みを表構造にマッピングする方法を学習する。
論文 参考訳(メタデータ) (2024-09-03T08:13:06Z) - Refining Skewed Perceptions in Vision-Language Models through Visual Representations [0.033483662989441935]
大規模視覚言語モデル(VLM)は、様々な下流タスクで顕著な成功を収めている。
それらの利点にもかかわらず、これらのモデルは現実のデータの不均等な分布からバイアスを受け継ぎ、実際の環境に関する誤解を招く。
本研究では,CLIPの下流アプリケーションへの埋め込みから,単純な線形プローブを用いてタスク固有のコア特徴を効果的に抽出する方法について検討する。
論文 参考訳(メタデータ) (2024-05-22T22:03:11Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations [15.59251297818324]
本稿では,ニューラルネットワークのアクティベーションに含まれる情報をグループ化する手法を提案する。
すべてのレイヤの機能を利用して、モデルのどの部分が関連する情報を含んでいるのかを推測する必要をなくします。
論文 参考訳(メタデータ) (2023-12-11T01:20:34Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive
Learning [109.84770951839289]
歴史的文脈からビジュアルダイナミクスを学習するための新しいリカレントネットワークであるPredRNNを紹介する。
本手法は,3つの標準データセット上で高い競争結果が得られることを示す。
論文 参考訳(メタデータ) (2021-03-17T08:28:30Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。