論文の概要: Learning Representations by Predicting Bags of Visual Words
- arxiv url: http://arxiv.org/abs/2002.12247v1
- Date: Thu, 27 Feb 2020 16:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 07:55:54.973986
- Title: Learning Representations by Predicting Bags of Visual Words
- Title(参考訳): 視覚単語の袋予測による学習表現
- Authors: Spyros Gidaris, Andrei Bursuc, Nikos Komodakis, Patrick P\'erez,
Matthieu Cord
- Abstract要約: 自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
- 参考スコア(独自算出の注目度): 55.332200948110895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised representation learning targets to learn convnet-based image
representations from unlabeled data. Inspired by the success of NLP methods in
this area, in this work we propose a self-supervised approach based on
spatially dense image descriptions that encode discrete visual concepts, here
called visual words. To build such discrete representations, we quantize the
feature maps of a first pre-trained self-supervised convnet, over a k-means
based vocabulary. Then, as a self-supervised task, we train another convnet to
predict the histogram of visual words of an image (i.e., its Bag-of-Words
representation) given as input a perturbed version of that image. The proposed
task forces the convnet to learn perturbation-invariant and context-aware image
features, useful for downstream image understanding tasks. We extensively
evaluate our method and demonstrate very strong empirical results, e.g., our
pre-trained self-supervised representations transfer better on detection task
and similarly on classification over classes "unseen" during pre-training, when
compared to the supervised case.
This also shows that the process of image discretization into visual words
can provide the basis for very powerful self-supervised approaches in the image
domain, thus allowing further connections to be made to related methods from
the NLP domain that have been extremely successful so far.
- Abstract(参考訳): 自己教師付き表現学習ターゲットは、ラベルのないデータからconvnetベースのイメージ表現を学ぶ。
この分野でのNLP手法の成功に触発された本研究では,視覚的単語と呼ばれる離散的な視覚概念を符号化した空間的に密集した画像記述に基づく自己教師型アプローチを提案する。
このような離散表現を構築するために、k-means に基づく語彙を用いて、最初の事前訓練された自己教師付き共振器の特徴写像を定量化する。
そして、自己監督タスクとして、画像の摂動バージョン入力として与えられた画像の視覚的ワード(すなわち単語の袋表現)のヒストグラムを予測するために、別のconvnetを訓練する。
提案したタスクは、ダウンストリーム画像理解タスクに有用な摂動不変およびコンテキスト対応の画像特徴を学習させる。
我々は,本手法を広範囲に評価し,例えば,事前学習した自己教師表現は,検出タスクにおいて,また,教師付きケースと比較して,事前学習中に「見えない」クラスに対する分類よりも優れていることを示す。
これはまた、視覚的単語への画像認識のプロセスが、画像領域における非常に強力な自己監督的アプローチの基礎となることを示し、これまで非常に成功してきたNLPドメインの関連手法にさらなる接続を可能にする。
関連論文リスト
- Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models [14.019349267520541]
本稿では,事前学習した画像分類器の学習特徴を解釈するために,言語モデルの能力を活用する新しい手法を提案する。
提案手法は,与えられた画像の分類器によって学習された特徴を説明するために,膨大な数の文を生成する。
提案手法は,視覚表現に対応する頻繁な単語を初めて利用し,意思決定プロセスに関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-01T20:59:46Z) - Semantic-Aware Fine-Grained Correspondence [8.29030327276322]
本稿では,画像レベルの自己教師付き手法を用いて,セマンティック・アウェアのきめ細かな対応を学習する。
我々は,微粒な対応を特に狙う画素レベルの自己教師型学習目標を設計する。
本手法は,様々な視覚対応タスクにおける畳み込みネットワークを用いた従来の自己教師手法を超越した手法である。
論文 参考訳(メタデータ) (2022-07-21T12:51:41Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Self-supervised Product Quantization for Deep Unsupervised Image
Retrieval [21.99902461562925]
改良されたディープラーニングベースのハッシュとベクトル量子化は、高速で大規模な画像検索システムを実現する。
本稿では,SPQ (Self-supervised Product Quantization) ネットワークと呼ばれる,ラベルフリーで,自己教師型で訓練された画像検索手法を提案する。
提案手法は,画像内容を分析して記述的特徴を抽出し,正確な検索のための画像表現の理解を可能にする。
論文 参考訳(メタデータ) (2021-09-06T05:02:34Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。