論文の概要: Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations
- arxiv url: http://arxiv.org/abs/2207.12049v1
- Date: Mon, 25 Jul 2022 10:40:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 14:54:00.294050
- Title: Few-Shot Object Detection by Knowledge Distillation Using
Bag-of-Visual-Words Representations
- Title(参考訳): Bag-of-Visual-Words表現を用いた知識蒸留によるFew-Shotオブジェクト検出
- Authors: Wenjie Pei, Shuang Wu, Dianwen Mei, Fanglin Chen, Jiandong Tian,
Guangming Lu
- Abstract要約: 対象検出器の学習を導くための新しい知識蒸留フレームワークを設計する。
まず,視覚単語の代表的な袋を学習するための単語の位置認識モデルを提案する。
次に、2つの異なる特徴空間において、画像が一貫したBoVW表現を持つべきであるという事実に基づいて知識蒸留を行う。
- 参考スコア(独自算出の注目度): 58.48995335728938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While fine-tuning based methods for few-shot object detection have achieved
remarkable progress, a crucial challenge that has not been addressed well is
the potential class-specific overfitting on base classes and sample-specific
overfitting on novel classes. In this work we design a novel knowledge
distillation framework to guide the learning of the object detector and thereby
restrain the overfitting in both the pre-training stage on base classes and
fine-tuning stage on novel classes. To be specific, we first present a novel
Position-Aware Bag-of-Visual-Words model for learning a representative bag of
visual words (BoVW) from a limited size of image set, which is used to encode
general images based on the similarities between the learned visual words and
an image. Then we perform knowledge distillation based on the fact that an
image should have consistent BoVW representations in two different feature
spaces. To this end, we pre-learn a feature space independently from the object
detection, and encode images using BoVW in this space. The obtained BoVW
representation for an image can be considered as distilled knowledge to guide
the learning of object detector: the extracted features by the object detector
for the same image are expected to derive the consistent BoVW representations
with the distilled knowledge. Extensive experiments validate the effectiveness
of our method and demonstrate the superiority over other state-of-the-art
methods.
- Abstract(参考訳): 微調整によるオブジェクト検出法は目覚ましい進歩を遂げているが、未解決の課題は、クラス固有のオーバーフィッティングや新しいクラスへのサンプル固有のオーバーフィッティングの可能性である。
本研究は, 対象検出器の学習を誘導する新しい知識蒸留フレームワークを設計し, 基礎授業における事前学習段階と新規授業における微調整段階の両方において過適合を抑制する。
具体的には,画像集合の限られたサイズから視覚単語の代表的な袋(BoVW)を学習し,学習した視覚単語と画像の類似性に基づいて一般画像の符号化を行う新しい位置認識バグ・オブ・ビジュアルワードモデルを提案する。
次に、2つの異なる特徴空間に一貫したBoVW表現を持つ必要があるという事実に基づいて知識蒸留を行う。
この目的のために、オブジェクト検出から独立して特徴空間を事前学習し、この空間でBoVWを用いて画像をエンコードする。
得られた画像のBoVW表現は、オブジェクト検出器の学習を導くための蒸留知識とみなすことができ、同じ画像のオブジェクト検出器によって抽出された特徴は、蒸留知識と一貫したBoVW表現を導出することが期待できる。
本手法の有効性を検証し,他の最先端手法よりも優れていることを示す。
関連論文リスト
- Context-driven Visual Object Recognition based on Knowledge Graphs [0.8701566919381223]
本稿では,知識グラフに符号化された外部文脈知識を用いて,ディープラーニング手法を強化する手法を提案する。
我々は、異なる文脈ビューが同じ画像データセットの学習対象表現に与える影響を調べるために、一連の実験を行った。
論文 参考訳(メタデータ) (2022-10-20T13:09:00Z) - LEAD: Self-Supervised Landmark Estimation by Aligning Distributions of
Feature Similarity [49.84167231111667]
自己監督型ランドマーク検出における既存の研究は、画像から高密度(ピクセルレベルの)特徴表現を学習することに基づいている。
自己教師付き方式で高密度同変表現の学習を強化するアプローチを提案する。
機能抽出器にそのような先行性があることは,アノテーションの数が大幅に制限されている場合でも,ランドマーク検出に役立ちます。
論文 参考訳(メタデータ) (2022-04-06T17:48:18Z) - Rectifying the Shortcut Learning of Background: Shared Object
Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。
本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文 参考訳(メタデータ) (2021-07-16T07:46:41Z) - Knowledge-Guided Object Discovery with Acquired Deep Impressions [41.07379505694274]
物体の知識を「印象」として継続的に学習するADI(Acquired Deep Impressions)というフレームワークを紹介します。
ADIはまず、1つのオブジェクトを含むシーンイメージから、監視された方法で知識を得ます。
そして、これまで見たことのないオブジェクトを含む可能性のある、新しいマルチオブジェクトシーンイメージから学習する。
論文 参考訳(メタデータ) (2021-03-19T03:17:57Z) - Online Bag-of-Visual-Words Generation for Unsupervised Representation
Learning [59.29452780994169]
本研究では,コンベネットを訓練して画像のバッフル・オブ・ビジュアルワード(bow)表現を再構築し,表現を学習する教師・学生計画を提案する。
私たちの戦略は、教師ネットワーク(BoWターゲットを生成する役割)と学生ネットワーク(表現を学ぶ役割)の両方のオンライントレーニングと、ビジュアルワード語彙のオンライン更新を実行します。
論文 参考訳(メタデータ) (2020-12-21T18:31:21Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。