論文の概要: Generating Features with Increased Crop-related Diversity for Few-Shot
Object Detection
- arxiv url: http://arxiv.org/abs/2304.05096v1
- Date: Tue, 11 Apr 2023 09:47:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:30:54.437257
- Title: Generating Features with Increased Crop-related Diversity for Few-Shot
Object Detection
- Title(参考訳): 被写体検出のための作物関連多様性の増大による特徴生成
- Authors: Jingyi Xu, Hieu Le, Dimitris Samaras
- Abstract要約: 2段階のオブジェクト検出器はオブジェクトの提案を生成し、イメージ内のオブジェクトを検出するためにそれらを分類する。
提案にはオブジェクトを完全に含まないことが多いが、多くの点で重複している。
本稿では,作物の多様性が増大するデータを生成することのできる,新しい変分自動エンコーダに基づくデータ生成モデルを提案する。
- 参考スコア(独自算出の注目度): 35.652092907690694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Two-stage object detectors generate object proposals and classify them to
detect objects in images. These proposals often do not contain the objects
perfectly but overlap with them in many possible ways, exhibiting great
variability in the difficulty levels of the proposals. Training a robust
classifier against this crop-related variability requires abundant training
data, which is not available in few-shot settings. To mitigate this issue, we
propose a novel variational autoencoder (VAE) based data generation model,
which is capable of generating data with increased crop-related diversity. The
main idea is to transform the latent space such latent codes with different
norms represent different crop-related variations. This allows us to generate
features with increased crop-related diversity in difficulty levels by simply
varying the latent norm. In particular, each latent code is rescaled such that
its norm linearly correlates with the IoU score of the input crop w.r.t. the
ground-truth box. Here the IoU score is a proxy that represents the difficulty
level of the crop. We train this VAE model on base classes conditioned on the
semantic code of each class and then use the trained model to generate features
for novel classes. In our experiments our generated features consistently
improve state-of-the-art few-shot object detection methods on the PASCAL VOC
and MS COCO datasets.
- Abstract(参考訳): 2段階のオブジェクト検出器は、オブジェクトの提案を生成し、画像内のオブジェクトを検出するために分類する。
これらの提案は、しばしばオブジェクトを完全に含まないが、多くの可能な方法でオブジェクトと重複し、提案の難易度において大きなばらつきを示す。
この作物関連変動に対するロバストな分類器の訓練には豊富なトレーニングデータが必要である。
この問題を緩和するために, 作物の多様性が増大するデータを生成する新しい変分オートエンコーダ(VAE)ベースのデータ生成モデルを提案する。
主な考え方は、異なる規範を持つ潜在空間を、異なる作物に関連するバリエーションを表すために変換することである。
これにより、潜在規範を単に変化させることで、作物に関連する難易度を増大させる特徴を生成できる。
特に、各潜伏符号は、そのノルムが入力作物w.r.t.の接地木箱のIoUスコアと線形に相関するように再スケールされる。
ここでIoUスコアは、作物の難易度を表すプロキシです。
このVAEモデルを各クラスのセマンティックコードで条件付けられたベースクラスでトレーニングし、トレーニングされたモデルを使用して新しいクラスの機能を生成する。
実験では,PASCAL VOCおよびMS COCOデータセット上での最先端の複数ショットオブジェクト検出手法を改良した。
関連論文リスト
- CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - MixTeacher: Mining Promising Labels with Mixed Scale Teacher for
Semi-Supervised Object Detection [22.047246997864143]
オブジェクトインスタンス間のスケールの変動は、オブジェクト検出タスクにおいて依然として重要な課題である。
そこで本研究では,混成型教師を導入することで,尺度変動問題に対処する新しい枠組みを提案する。
各種半教師付き環境下でのMS COCOおよびPASCAL VOCベンチマーク実験により,本手法が新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-16T03:37:54Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Mitigating Generation Shifts for Generalized Zero-Shot Learning [52.98182124310114]
一般化ゼロショット学習(英: Generalized Zero-Shot Learning、GZSL)は、学習中に見知らぬクラスが観察できない、見つからないサンプルを認識するために意味情報(属性など)を活用するタスクである。
本稿では,未知のデータ合成を効率よく,効率的に学習するための新しい生成シフト緩和フローフレームワークを提案する。
実験結果から,GSMFlowは従来のゼロショット設定と一般化されたゼロショット設定の両方において,最先端の認識性能を実現することが示された。
論文 参考訳(メタデータ) (2021-07-07T11:43:59Z) - Balancing Constraints and Submodularity in Data Subset Selection [43.03720397062461]
より少ないトレーニングデータを用いて、従来のディープラーニングモデルと同様の精度が得られることを示す。
新たな多様性駆動客観的関数を提案し,マトロイドを用いたクラスラベルと決定境界の制約のバランスをとる。
論文 参考訳(メタデータ) (2021-04-26T19:22:27Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Variational Mutual Information Maximization Framework for VAE Latent
Codes with Continuous and Discrete Priors [5.317548969642376]
変分オートエンコーダ(VAE)は、複雑なデータの有向潜在変数モデルを学習するためのスケーラブルな方法である。
本稿では,VAEのための変分相互情報最大化フレームワークを提案し,この問題に対処する。
論文 参考訳(メタデータ) (2020-06-02T09:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。