論文の概要: PromptMix: Text-to-image diffusion models enhance the performance of
lightweight networks
- arxiv url: http://arxiv.org/abs/2301.12914v2
- Date: Tue, 31 Jan 2023 12:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 12:38:37.463507
- Title: PromptMix: Text-to-image diffusion models enhance the performance of
lightweight networks
- Title(参考訳): PromptMix: テキスト・画像拡散モデルによる軽量ネットワークの性能向上
- Authors: Arian Bakhtiarnia, Qi Zhang, and Alexandros Iosifidis
- Abstract要約: ディープラーニングタスクは、人間のオペレーターに時間がかかりすぎるアノテーションを必要とする。
本稿では,既存のデータセットのサイズを人工的に向上するPromptMixを紹介する。
PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示す。
- 参考スコア(独自算出の注目度): 83.08625720856445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many deep learning tasks require annotations that are too time consuming for
human operators, resulting in small dataset sizes. This is especially true for
dense regression problems such as crowd counting which requires the location of
every person in the image to be annotated. Techniques such as data augmentation
and synthetic data generation based on simulations can help in such cases. In
this paper, we introduce PromptMix, a method for artificially boosting the size
of existing datasets, that can be used to improve the performance of
lightweight networks. First, synthetic images are generated in an end-to-end
data-driven manner, where text prompts are extracted from existing datasets via
an image captioning deep network, and subsequently introduced to text-to-image
diffusion models. The generated images are then annotated using one or more
high-performing deep networks, and mixed with the real dataset for training the
lightweight network. By extensive experiments on five datasets and two tasks,
we show that PromptMix can significantly increase the performance of
lightweight networks by up to 26%.
- Abstract(参考訳): 多くのディープラーニングタスクは、人間の演算子に時間がかかりすぎるアノテーションを必要とし、結果としてデータセットのサイズが小さくなる。
これは特に、画像中のすべての人物の位置をアノテートする必要がある群衆カウントのような密度の低い回帰問題に当てはまる。
シミュレーションに基づくデータ拡張や合成データ生成といったテクニックは、そのような場合に役立つ。
本稿では,軽量ネットワークの性能向上に有効な,既存のデータセットのサイズを人工的に向上する手法であるPromptMixを紹介する。
まず、画像キャプション深層ネットワークを介して既存のデータセットからテキストプロンプトを抽出し、その後、テキスト間拡散モデルに導入するエンドツーエンドのデータ駆動方式で合成画像を生成する。
生成された画像は、1つ以上のハイパフォーマンスなディープネットワークを使用して注釈付けされ、軽量ネットワークをトレーニングするための実際のデータセットと混在する。
5つのデータセットと2つのタスクに関する広範な実験により、PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示した。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Exposure Bracketing is All You Need for Unifying Image Restoration and Enhancement Tasks [50.822601495422916]
本稿では,露光ブラケット写真を利用して画像復元と拡張作業を統合することを提案する。
実世界のペアの収集が困難であるため,まず合成ペアデータを用いてモデルを事前学習する手法を提案する。
特に,時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Semantic Generative Augmentations for Few-Shot Counting [0.0]
合成データは,クラス非依存のカウントにどのように役立つかを検討する。
本稿では,安定拡散の二重条件付けをプロンプトと密度マップの両方で行うことを提案する。
実験により, 多様な生成戦略により, 2つの最近の数理モデルと数理モデルとのカウント精度が大幅に向上することが確認された。
論文 参考訳(メタデータ) (2023-10-26T11:42:48Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [80.82832715884597]
生成拡散モデルにより生成された画像からテキストプロンプトを予測する新しいタスクを導入する。
本稿では,複数ラベルの語彙分類を目的とし,協調的即時回帰と複数ラベルの語彙分類からなる新しい学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - RADiff: Controllable Diffusion Models for Radio Astronomical Maps
Generation [6.128112213696457]
RADiffは、注釈付き無線データセット上でトレーニングされた条件拡散モデルに基づく生成的アプローチである。
完全合成画像アノテーションペアを生成して,任意のアノテートデータセットを自動的に拡張できることを示す。
論文 参考訳(メタデータ) (2023-07-05T16:04:44Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Leveraging Image Complexity in Macro-Level Neural Network Design for
Medical Image Segmentation [3.974175960216864]
画像の複雑さは、与えられたデータセットに最適なものを選択するためのガイドラインとして利用できることを示す。
高複雑性データセットの場合、元のイメージ上で実行される浅いネットワークは、ダウンサンプリングされたイメージ上で実行されるディープネットワークよりもセグメンテーション結果が優れている可能性がある。
論文 参考訳(メタデータ) (2021-12-21T09:49:47Z) - Using GANs to Augment Data for Cloud Image Segmentation Task [2.294014185517203]
本稿では,GAN(Generative Adversarial Networks)によるデータ生成の有効性を示す。
また,GAN生成した画像の2進2進写像を推定し,画像として有効に活用する方法を提案する。
論文 参考訳(メタデータ) (2021-06-06T09:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。