論文の概要: Semantic Generative Augmentations for Few-Shot Counting
- arxiv url: http://arxiv.org/abs/2311.16122v1
- Date: Thu, 26 Oct 2023 11:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-03 13:28:30.926945
- Title: Semantic Generative Augmentations for Few-Shot Counting
- Title(参考訳): Few-Shotカウントのための意味的生成拡張
- Authors: Perla Doubinsky (CEDRIC - VERTIGO, CNAM), Nicolas Audebert (CEDRIC -
VERTIGO, CNAM), Michel Crucianu (CEDRIC - VERTIGO), Herv\'e Le Borgne (CEA)
- Abstract要約: 合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the availability of powerful text-to-image diffusion models, recent
works have explored the use of synthetic data to improve image classification
performances. These works show that it can effectively augment or even replace
real data. In this work, we investigate how synthetic data can benefit few-shot
class-agnostic counting. This requires to generate images that correspond to a
given input number of objects. However, text-to-image models struggle to grasp
the notion of count. We propose to rely on a double conditioning of Stable
Diffusion with both a prompt and a density map in order to augment a training
dataset for few-shot counting. Due to the small dataset size, the fine-tuned
model tends to generate images close to the training images. We propose to
enhance the diversity of synthesized images by exchanging captions between
images thus creating unseen configurations of object types and spatial layout.
Our experiments show that our diversified generation strategy significantly
improves the counting accuracy of two recent and performing few-shot counting
models on FSC147 and CARPK.
- Abstract(参考訳): 近年,強力なテキスト・画像拡散モデルが利用可能となり,画像分類性能を向上させるために合成データの利用が検討されている。
これらの研究は、実際のデータを効果的に拡張したり、置き換えたりできることを示している。
本研究では,合成データがクラス非依存数にどのように役立つかを検討する。
これは与えられたオブジェクトの入力数に対応する画像を生成する必要がある。
しかし、テキスト・ツー・イメージモデルはカウントの概念を理解するのに苦労する。
本稿では,数秒カウントのためのトレーニングデータセットを増強するために,プロンプトと密度マップを併用した安定拡散の二重条件化を提案する。
データセットのサイズが小さいため、微調整されたモデルはトレーニング画像に近い画像を生成する傾向がある。
本研究では,画像間のキャプションを交換することにより,合成画像の多様性を高めることを目的とする。
実験の結果,FSC147とCARPKの2つの最近の数量モデルにおいて,多種多様な生成戦略により精度が向上することが示された。
関連論文リスト
- Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Explore the Power of Synthetic Data on Few-shot Object Detection [27.26215175101865]
Few-shot Object Detection (FSOD) は、トレーニングのいくつかの例に限って、新しいカテゴリのオブジェクト検出器を拡張することを目的としている。
近年のテキスト・画像生成モデルでは,高品質な画像を生成する上で有望な結果が得られている。
この研究は、最先端のテキスト・ツー・イメージ・ジェネレータから生成された合成画像がFSODタスクにどのように貢献するかを幅広く研究している。
論文 参考訳(メタデータ) (2023-03-23T12:34:52Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。