論文の概要: Semantic-Guided Image Augmentation with Pre-trained Models
- arxiv url: http://arxiv.org/abs/2302.02070v1
- Date: Sat, 4 Feb 2023 02:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 20:34:53.608393
- Title: Semantic-Guided Image Augmentation with Pre-trained Models
- Title(参考訳): 事前学習モデルによる意味誘導画像の拡張
- Authors: Bohan Li, Xinghao Wang, Xiao Xu, Yutai Hou, Yunlong Feng, Feng Wang,
Wanxiang Che
- Abstract要約: 事前学習モデル(SIP)を用いたセマンティック誘導画像拡張法を提案する。
SIPは画像ラベルとキャプションでプロンプトを構築し、トレーニング済みの安定拡散モデルのイメージ・ツー・イメージ生成プロセスをより良くガイドする。
実験の結果、SIPは一般的に使用されている2つのバックボーン、すなわちResNet-50とViTを平均して7つのデータセットで12.60%、2.07%改善できることがわかった。
- 参考スコア(独自算出の注目度): 52.99524626456134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image augmentation is a common mechanism to alleviate data scarcity in
computer vision. Existing image augmentation methods often apply pre-defined
transformations or mixup to augment the original image, but only locally vary
the image. This makes them struggle to find a balance between maintaining
semantic information and improving the diversity of augmented images. In this
paper, we propose a Semantic-guided Image augmentation method with Pre-trained
models (SIP). Specifically, SIP constructs prompts with image labels and
captions to better guide the image-to-image generation process of the
pre-trained Stable Diffusion model. The semantic information contained in the
original images can be well preserved, and the augmented images still maintain
diversity. Experimental results show that SIP can improve two commonly used
backbones, i.e., ResNet-50 and ViT, by 12.60% and 2.07% on average over seven
datasets, respectively. Moreover, SIP not only outperforms the best image
augmentation baseline RandAugment by 4.46% and 1.23% on two backbones, but also
further improves the performance by integrating naturally with the baseline. A
detailed analysis of SIP is presented, including the diversity of augmented
images, an ablation study on textual prompts, and a case study on the generated
images.
- Abstract(参考訳): 画像拡張は、コンピュータビジョンにおけるデータの不足を軽減する共通のメカニズムである。
既存の画像増倍法は、しばしば元の画像の増倍に事前定義された変換や混合を適用するが、局所的にしか変化しない。
これにより、意味情報の維持と画像の多様性の向上のバランスを見つけるのに苦労する。
本稿では,事前学習モデル(SIP)を用いたセマンティック誘導画像拡張手法を提案する。
具体的には、SIPは画像ラベルとキャプションでプロンプトを構築し、事前訓練された安定拡散モデルのイメージ・ツー・イメージ生成プロセスをより良くガイドする。
元の画像に含まれる意味情報はよく保存でき、拡張された画像は依然として多様性を維持している。
実験の結果、SIPは一般的に使用されている2つのバックボーン、すなわちResNet-50とViTを平均して7つのデータセットで12.60%、2.07%改善できることがわかった。
さらに、SIPは最高の画像拡張ベースラインRandAugmentを2つのバックボーンで4.46%、1.23%上回るだけでなく、ベースラインと自然に統合することでパフォーマンスも向上する。
拡張画像の多様性,テキストプロンプトのアブレーション研究,生成画像の事例研究など,sipの詳細な解析を行った。
関連論文リスト
- Decoupled Data Augmentation for Improving Image Classification [37.50690945158849]
Decoupled Data Augmentation (De-DA)を導入する。
生成モデルを用いて、制御条件下での実際のCDPの修正を行い、セマンティック一貫性を保つ。
また、画像のCIPをクラス間変種に置き換え、多様なCDP-CIPの組み合わせを作成します。
論文 参考訳(メタデータ) (2024-10-29T06:27:09Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models [18.44432223381586]
近年、ディープニューラルネットワークの一般化を改善するために、画像混合に基づく拡張技術が数多く導入されている。
これらの手法では、2つ以上のランダムに選択された自然画像が混合され、拡張画像を生成する。
DiffuseMixを提案する。DiffuseMixは、拡散モデルを利用してトレーニング画像を再構成する新しいデータ拡張手法である。
論文 参考訳(メタデータ) (2024-04-05T05:31:02Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Siamese Image Modeling for Self-Supervised Vision Representation
Learning [73.78790119050056]
自己教師付き学習(SSL)は、さまざまな下流視覚タスクにおいて優れたパフォーマンスを提供している。
2つのメインストリームSSLフレームワーク、すなわちインスタンス識別(ID)とマスク画像モデリング(MIM)が提案されている。
本稿では,拡張ビューの濃密な表現を予測できるSiamese Image Modeling (SIM)を提案する。
論文 参考訳(メタデータ) (2022-06-02T17:59:58Z) - DVG-Face: Dual Variational Generation for Heterogeneous Face Recognition [85.94331736287765]
我々は、HFRを二重生成問題として定式化し、新しいDual Variational Generation(DVG-Face)フレームワークを用いてそれに取り組む。
大規模可視データの豊富なアイデンティティ情報を結合分布に統合する。
同一の同一性を持つ多種多様な多種多様な画像は、ノイズから生成することができる。
論文 参考訳(メタデータ) (2020-09-20T09:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。