論文の概要: Towards Fine-grained Visual Representations by Combining Contrastive
Learning with Image Reconstruction and Attention-weighted Pooling
- arxiv url: http://arxiv.org/abs/2104.04323v1
- Date: Fri, 9 Apr 2021 12:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 17:16:17.227336
- Title: Towards Fine-grained Visual Representations by Combining Contrastive
Learning with Image Reconstruction and Attention-weighted Pooling
- Title(参考訳): コントラスト学習と画像再構成とアテンション重み付きプールの併用によるきめ細かい視覚表現に向けて
- Authors: Jonas Dippel, Steffen Dippel, Johannes H\"ohne
- Abstract要約: Contrastive Reconstruction、ConRecは、コントラストと自己再建損失を共同で最適化することによって画像表現を得る自己監督学習アルゴリズムです。
最先端のコントラスト学習手法(例)を紹介する。
SimCLR)は、その表現できめ細かい視覚的特徴を捉えるのに欠点がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents Contrastive Reconstruction, ConRec - a self-supervised
learning algorithm that obtains image representations by jointly optimizing a
contrastive and a self-reconstruction loss. We showcase that state-of-the-art
contrastive learning methods (e.g. SimCLR) have shortcomings to capture
fine-grained visual features in their representations. ConRec extends the
SimCLR framework by adding (1) a self-reconstruction task and (2) an attention
mechanism within the contrastive learning task. This is accomplished by
applying a simple encoder-decoder architecture with two heads. We show that
both extensions contribute towards an improved vector representation for images
with fine-grained visual features. Combining those concepts, ConRec outperforms
SimCLR and SimCLR with Attention-Pooling on fine-grained classification
datasets.
- Abstract(参考訳): 本稿では,コントラストと自己再構成損失を併用して画像表現を最適化する自己教師型学習アルゴリズムConRecを提案する。
最先端のコントラスト学習手法(例)を紹介する。
SimCLR)は、表現の細かい視覚的特徴を捉えるのに欠点がある。
ConRecは,(1)自己再構成タスク,(2)コントラスト学習タスク内の注意機構を追加することで,SimCLRフレームワークを拡張した。
これは2つの頭を持つ単純なエンコーダ・デコーダアーキテクチャを適用することで実現される。
両拡張は,細かな視覚的特徴を持つ画像に対するベクトル表現の改善に寄与することを示す。
これらの概念を組み合わせることで、ConRecはSimCLRとSimCLRを、きめ細かい分類データセットのアテンションポーリングで上回ります。
関連論文リスト
- Dual Advancement of Representation Learning and Clustering for Sparse and Noisy Images [14.836487514037994]
SNI(Sparse and Noisy Image)は、効果的な表現学習とクラスタリングに重要な課題を提起する。
本稿では、マスク画像モデリングから得られた表現を強化するために、DARLC(Dual Advancement of Representation Learning and Clustering)を提案する。
我々のフレームワークは、局所的な認識性、特異性、関係意味論の理解を高めることによって、表現の学習を改善する包括的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-09-03T10:52:27Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Composed Image Retrieval using Contrastive Learning and Task-oriented
CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文 参考訳(メタデータ) (2023-08-22T15:03:16Z) - Revisiting Image Reconstruction for Semi-supervised Semantic
Segmentation [16.27277238968567]
画像再構成を補助課題として利用し、半教師付きセマンティックセグメンテーションフレームワークに組み込むという考え方を再考する。
驚くことに、このような半教師付き学習の古いアイデアは、最先端のセマンティックセグメンテーションアルゴリズムと競合する結果をもたらす。
論文 参考訳(メタデータ) (2023-03-17T06:31:06Z) - Masked Contrastive Representation Learning [6.737710830712818]
本研究では,自己指導型視覚前訓練のためのMasked Contrastive Representation Learning(MACRL)を提案する。
我々は、サイムズネットワーク(すなわち、両方の枝のエンコーダ・デコーダ構造)に対して非対称な設定を採用する。
実験では、CIFAR-10、CIFAR-100、Tiny-ImageNet、および他の2つのImageNetサブセットを含む様々なビジョンベンチマークにおいて、MACRLが優れた結果を示す。
論文 参考訳(メタデータ) (2022-11-11T05:32:28Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - Visual Alignment Constraint for Continuous Sign Language Recognition [74.26707067455837]
ビジョンベースの継続的署名言語認識は、画像シーケンスから未分割ジェスチャーを認識することを目的とする。
本研究は,最近のCTCに基づくCSLRにおける過剰適合問題を再考し,特徴抽出器の訓練不足によるものである。
視覚アライメント制約(vac)により、よりアライメントの監督により特徴抽出器を強化する。
論文 参考訳(メタデータ) (2021-04-06T07:24:58Z) - Self-Supervised Ranking for Representation Learning [108.38993212650577]
本稿では、画像検索コンテキストにおけるランキング問題として定式化することで、自己教師型表現学習のための新しいフレームワークを提案する。
我々は、画像のランダムなビューが正に関連していると考えられるランク付けのための平均精度(AP)を最大化し、表現エンコーダを訓練する。
原則として、ランク付け基準を使用することで、対象中心のキュレートされたデータセットへの依存を排除します。
論文 参考訳(メタデータ) (2020-10-14T17:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。