論文の概要: Reproducing BowNet: Learning Representations by Predicting Bags of
Visual Words
- arxiv url: http://arxiv.org/abs/2201.03556v1
- Date: Mon, 10 Jan 2022 07:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 22:13:27.437263
- Title: Reproducing BowNet: Learning Representations by Predicting Bags of
Visual Words
- Title(参考訳): bownetの再現:視覚単語の袋予測による学習表現
- Authors: Harry Nguyen, Stone Yun, Hisham Mohammad
- Abstract要約: 本研究は,GidarisらによるCVPR 2020論文の成果を再現することを目的としている。
本研究は,頑健で深層表現を学習するための自己教師型学習ターゲットとして,back-of-words (BoW) Deep Feature Descriptorsの使用を提案する。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work aims to reproduce results from the CVPR 2020 paper by Gidaris et
al. Self-supervised learning (SSL) is used to learn feature representations of
an image using an unlabeled dataset. This work proposes to use bag-of-words
(BoW) deep feature descriptors as a self-supervised learning target to learn
robust, deep representations. BowNet is trained to reconstruct the histogram of
visual words (ie. the deep BoW descriptor) of a reference image when presented
a perturbed version of the image as input. Thus, this method aims to learn
perturbation-invariant and context-aware image features that can be useful for
few-shot tasks or supervised downstream tasks. In the paper, the author
describes BowNet as a network consisting of a convolutional feature extractor
$\Phi(\cdot)$ and a Dense-softmax layer $\Omega(\cdot)$ trained to predict BoW
features from images. After BoW training, the features of $\Phi$ are used in
downstream tasks. For this challenge we were trying to build and train a
network that could reproduce the CIFAR-100 accuracy improvements reported in
the original paper. However, we were unsuccessful in reproducing an accuracy
improvement comparable to what the authors mentioned.
- Abstract(参考訳): 本研究は,GidarisらによるCVPR 2020論文の成果を再現することを目的としている。
自己教師付き学習(SSL)は、ラベルなしデータセットを使用して画像の特徴表現を学習するために使用される。
本研究は,頑健で深層表現を学習するための自己教師型学習ターゲットとして,back-of-words (BoW) Deep Feature Descriptorsの使用を提案する。
BowNetは、画像の摂動バージョンを入力として提示する際に、参照画像の視覚単語(例えば深部BoW記述子)のヒストグラムを再構築するように訓練される。
そこで本手法は,数ショットタスクや下流タスクの管理に有用な摂動不変およびコンテキスト対応の画像特徴を学習することを目的とする。
本論文では,BowNetを,畳み込み特徴抽出器$\Phi(\cdot)$とDense-softmaxレイヤ$\Omega(\cdot)$からなるネットワークとして記述し,画像からBoW特徴を予測する訓練を行った。
BoWトレーニングの後、$\Phi$の機能は下流タスクで使用される。
この課題のために私たちは、元の論文で報告されたCIFAR-100の精度向上を再現できるネットワークを構築し、トレーニングしようとしていました。
しかし、著者が述べたのに匹敵する精度の改善を再現することはできなかった。
関連論文リスト
- Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval [53.89454443114146]
本研究では,ゼロショット合成画像検索タスク(ZS-CIR)について検討した。
従来の作品では、参照画像の特徴をテキスト埋め込み空間に投影することで、擬似ワードトークンを生成する。
知識強化型デュアルストリームゼロショット合成画像検索フレームワーク(KEDs)を提案する。
KEDはデータベースを組み込むことで、参照画像の属性を暗黙的にモデル化する。
論文 参考訳(メタデータ) (2024-03-24T04:23:56Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding
without Text Inputs [82.93345261434943]
入力画像が与えられたら、そのオブジェクトを記述した画像とフレーズのバウンディングボックスを返します。
これは、入力画像内のオブジェクトがローカライゼーション機構のトレーニング中に遭遇しなかった可能性のあるオープンワールドパラダイム内で実現される。
本研究は, 弱教師付きセグメンテーションと句接頭辞を一般化し, 両領域の最先端技術として実証的に示す。
論文 参考訳(メタデータ) (2022-06-19T09:07:30Z) - Semantic-Aware Generation for Self-Supervised Visual Representation
Learning [116.5814634936371]
セマンティック・アウェア・ジェネレーション(SaGe)は、生成した画像に保存される詳細よりも、よりリッチなセマンティクスを促進する。
SaGeは、ターゲットネットワークをビュー特有の特徴で補完することで、集中的なデータ拡張によって引き起こされるセマンティックな劣化を軽減する。
我々は、ImageNet-1K上でSaGeを実行し、近接検定、線形分類、微視的画像認識を含む5つの下流タスクで事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2021-11-25T16:46:13Z) - Experimenting with Self-Supervision using Rotation Prediction for Image
Captioning [0.0]
画像キャプションは、コンピュータビジョンと自然言語処理を融合させる人工知能の分野における課題である。
エンコーダはOpenImagesデータセットに基づいてトレーニングされた畳み込みニューラルネットワーク(CNN)である。
回転プレテキストタスクを用いて,画像の特徴を自己教師付きで学習する。
論文 参考訳(メタデータ) (2021-07-28T00:46:27Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - DeepCFL: Deep Contextual Features Learning from a Single Image [30.610806956509336]
我々はDeep Contextual Features Learning (DeepCFL)と呼ばれる新しいトレーニングデータ非依存フレームワークを提案する。
DeepCFLは、入力画像からコンテキストベクトルの分布を学習する単一の画像GANフレームワークである。
本研究では,無作為に除去された画素のアウトペイント,インペイント,復元など,様々な難解なシナリオにおいて,文脈学習のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-11-07T06:54:59Z) - DIABLO: Dictionary-based Attention Block for Deep Metric Learning [23.083900077464442]
DIABLOは画像埋め込みのための辞書ベースのアテンション手法である。
視覚的な機能のみを集約することで、よりリッチな表現を生成する。
4つのディープ・メトリック・ラーニング・データセットで実験的に確認されている。
論文 参考訳(メタデータ) (2020-04-30T09:05:56Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。