論文の概要: Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning
- arxiv url: http://arxiv.org/abs/2012.11552v1
- Date: Mon, 21 Dec 2020 18:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:43:22.552269
- Title: Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning
- Title(参考訳): 教師なし表現学習のためのオンラインビジュアルワード生成
- Authors: Spyros Gidaris, Andrei Bursuc, Gilles Puy, Nikos Komodakis, Matthieu
Cord, Patrick P\'erez
- Abstract要約: 本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
- 参考スコア(独自算出の注目度): 59.29452780994169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning image representations without human supervision is an important and
active research field. Several recent approaches have successfully leveraged
the idea of making such a representation invariant under different types of
perturbations, especially via contrastive-based instance discrimination
training. Although effective visual representations should indeed exhibit such
invariances, there are other important characteristics, such as encoding
contextual reasoning skills, for which alternative reconstruction-based
approaches might be better suited.
With this in mind, we propose a teacher-student scheme to learn
representations by training a convnet to reconstruct a bag-of-visual-words
(BoW) representation of an image, given as input a perturbed version of that
same image. Our strategy performs an online training of both the teacher
network (whose role is to generate the BoW targets) and the student network
(whose role is to learn representations), along with an online update of the
visual-words vocabulary (used for the BoW targets). This idea effectively
enables fully online BoW-guided unsupervised learning. Extensive experiments
demonstrate the interest of our BoW-based strategy which surpasses previous
state-of-the-art methods (including contrastive-based ones) in several
applications. For instance, in downstream tasks such Pascal object detection,
Pascal classification and Places205 classification, our method improves over
all prior unsupervised approaches, thus establishing new state-of-the-art
results that are also significantly better even than those of supervised
pre-training. We provide the implementation code at
https://github.com/valeoai/obow.
- Abstract(参考訳): 人間の監督なしに画像表現を学ぶことは重要かつ活発な研究分野である。
最近のいくつかのアプローチは、このような表現を異なるタイプの摂動の下で不変にするというアイデアをうまく活用している。
効果的な視覚表現は、実際にそのような不変性を示すべきであるが、文脈推論スキルを符号化するなど、代替的な再構成に基づくアプローチがより適している、その他の重要な特徴がある。
このことを念頭において,同画像の摂動バージョンを入力として与えられた画像のbag-of-visual-words(BoW)表現を再構成するために,コンネットを訓練して表現を学習する教師学習方式を提案する。
私たちの戦略は、教師ネットワーク(弓のターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、視覚単語語彙のオンライン更新(弓のターゲットに使用される)を行います。
このアイデアは、完全にオンラインのBoW誘導型教師なし学習を可能にする。
複数のアプリケーションにおいて、従来の最先端の手法(対照的な手法を含む)を超越したBoWベースの戦略の関心を示している。
例えば、Pascalオブジェクト検出、Pascal分類、Places205分類などの下流タスクでは、従来の教師なしアプローチよりも改善され、教師付き事前学習よりもはるかに優れた新しい最先端の結果が確立される。
実装コードはhttps://github.com/valeoai/obowで提供します。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Vision Learners Meet Web Image-Text Pairs [24.194061585891692]
Webデータの優れたスケーラビリティを考えると、ノイズの多いWebソース画像とテキストのペアデータに対する自己教師付き事前学習を検討する。
マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。
我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文 参考訳(メタデータ) (2023-01-17T18:53:24Z) - Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations [58.48995335728938]
対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
論文 参考訳(メタデータ) (2022-07-25T10:40:40Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。