論文の概要: Multi-Perspective Data Augmentation for Few-shot Object Detection
- arxiv url: http://arxiv.org/abs/2502.18195v1
- Date: Tue, 25 Feb 2025 13:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:12.825542
- Title: Multi-Perspective Data Augmentation for Few-shot Object Detection
- Title(参考訳): Few-shot オブジェクト検出のための多視点データ拡張
- Authors: Anh-Khoa Nguyen Vu, Quoc-Truong Truong, Vinh-Tiep Nguyen, Thanh Duc Ngo, Thanh-Toan Do, Tam V. Nguyen,
- Abstract要約: 本稿では,MPAD(Multi-Perspective Data Augmentation)フレームワークを提案する。
前景と地上の関係性の観点から,境界ボックス調整を伴うオブジェクト合成(ICOS)の文脈内学習を提案する。
前景-背景関係について、典型的・ハードな背景をサンプリングするための背景提案法(BAP)を導入する。
- 参考スコア(独自算出の注目度): 17.34318821332361
- License:
- Abstract: Recent few-shot object detection (FSOD) methods have focused on augmenting synthetic samples for novel classes, show promising results to the rise of diffusion models. However, the diversity of such datasets is often limited in representativeness because they lack awareness of typical and hard samples, especially in the context of foreground and background relationships. To tackle this issue, we propose a Multi-Perspective Data Augmentation (MPAD) framework. In terms of foreground-foreground relationships, we propose in-context learning for object synthesis (ICOS) with bounding box adjustments to enhance the detail and spatial information of synthetic samples. Inspired by the large margin principle, support samples play a vital role in defining class boundaries. Therefore, we design a Harmonic Prompt Aggregation Scheduler (HPAS) to mix prompt embeddings at each time step of the generation process in diffusion models, producing hard novel samples. For foreground-background relationships, we introduce a Background Proposal method (BAP) to sample typical and hard backgrounds. Extensive experiments on multiple FSOD benchmarks demonstrate the effectiveness of our approach. Our framework significantly outperforms traditional methods, achieving an average increase of $17.5\%$ in nAP50 over the baseline on PASCAL VOC. Code is available at https://github.com/nvakhoa/MPAD.
- Abstract(参考訳): 近年のFSOD法は,新しいクラスのための合成試料の増補に重点を置いており,拡散モデルの普及に有望な結果を示している。
しかし,このようなデータセットの多様性は,特に前景・背景関係の文脈において,典型的・ハードなサンプルの認識が欠如しているため,代表性に制限されることが多い。
そこで本研究では,MPAD(Multi-Perspective Data Augmentation)フレームワークを提案する。
前景・地上関係の観点からは,合成サンプルの細部や空間的情報を高めるために,境界ボックス調整によるオブジェクト合成(ICOS)の文脈内学習を提案する。
大きなマージン原理にインスパイアされたサポートサンプルは、クラスの境界を定義する上で重要な役割を果たす。
そこで我々は, 拡散モデルにおける生成過程の各段階において, 即時埋め込みを混合し, ハードノベル標本を生成するために, ハーモニック・プロンプト・アグリゲーション・スケジューラ (HPAS) を設計した。
前景-背景関係について、典型的・ハードな背景をサンプリングするための背景提案法(BAP)を導入する。
複数のFSODベンチマークに対する大規模な実験により,本手法の有効性が示された。
我々のフレームワークは従来の手法よりも優れており、PASCAL VOCのベースラインよりも平均17.5\%のnAP50の増加を実現している。
コードはhttps://github.com/nvakhoa/MPAD.comで入手できる。
関連論文リスト
- Boosting Salient Object Detection with Knowledge Distillated from Large Foundation Models [7.898092154590899]
Salient Object Detectionは、シーン内の顕著な領域を特定し、セグメンテーションすることを目的としている。
従来のモデルは、正確なピクセルレベルの精度で手動でアノテートされた擬似ラベルに依存している。
本研究では,低コストで高精度なアノテーション手法を開発し,課題に対処する。
論文 参考訳(メタデータ) (2025-01-08T15:56:21Z) - Diverse Rare Sample Generation with Pretrained GANs [24.227852798611025]
本研究では,GANを事前学習した高解像度画像データセットから多様な希少サンプルを生成する手法を提案する。
提案手法は,多目的フレームワーク内での遅延ベクトルの勾配に基づく最適化と,特徴空間上の密度推定に正規化フローを利用する。
これにより、レア画像の生成が可能となり、レアリティ、多様性、参照画像との類似性の制御可能なパラメータが提供される。
論文 参考訳(メタデータ) (2024-12-27T09:10:30Z) - Learning from Different Samples: A Source-free Framework for Semi-supervised Domain Adaptation [20.172605920901777]
本稿では,異なる対象サンプルを包括的にマイニングするための異なる戦略を利用するフレームワークの設計に焦点をあてる。
そこで本研究では,対象領域における事前学習モデルの半教師付き微調整を実現するための,新しいソースフリーフレームワーク(SOUF)を提案する。
論文 参考訳(メタデータ) (2024-11-11T02:09:32Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z) - Dual-View Data Hallucination with Semantic Relation Guidance for Few-Shot Image Recognition [49.26065739704278]
本稿では、意味的関係を利用して、画像認識のための二重視点データ幻覚を導出するフレームワークを提案する。
インスタンスビューデータ幻覚モジュールは、新規クラスの各サンプルを幻覚して新しいデータを生成する。
プロトタイプビューデータ幻覚モジュールは、意味認識尺度を利用して、新しいクラスのプロトタイプを推定する。
論文 参考訳(メタデータ) (2024-01-13T12:32:29Z) - Deep Boosting Multi-Modal Ensemble Face Recognition with Sample-Level
Weighting [11.39204323420108]
深層畳み込みニューラルネットワークは顔認識において顕著な成功を収めた。
現在のトレーニングベンチマークは、不均衡な品質分布を示している。
これは、訓練中に不足しているため、ハードサンプルの一般化に問題を引き起こす。
有名なAdaBoostにインスパイアされた本研究では、FR損失に異なるサンプルの重要性を組み込むためのサンプルレベルの重み付け手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T01:44:54Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Multi-Scale Positive Sample Refinement for Few-Shot Object Detection [61.60255654558682]
Few-shot Object Detection (FSOD) は、ディテクターがトレーニングインスタンスをほとんど持たない未確認のクラスに適応するのに役立つ。
FSODにおけるオブジェクトスケールを拡張化するためのMPSR(Multi-scale Positive Sample Refinement)アプローチを提案する。
MPSRは、オブジェクトピラミッドとして多スケールの正のサンプルを生成し、様々なスケールで予測を洗練させる。
論文 参考訳(メタデータ) (2020-07-18T09:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。