論文の概要: Semantic Augmentation in Images using Language
- arxiv url: http://arxiv.org/abs/2404.02353v1
- Date: Tue, 2 Apr 2024 22:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 19:09:09.799424
- Title: Semantic Augmentation in Images using Language
- Title(参考訳): 言語を用いた画像のセマンティック拡張
- Authors: Sahiti Yerramilli, Jayant Sravan Tamarapalli, Tanmay Girish Kulkarni, Jonathan Francis, Eric Nyberg,
- Abstract要約: 本稿では,既存のデータセットを拡張するために生成された画像を利用する手法を提案する。
本稿では,深層学習モデルの領域外一般化能力を改善するために,効果的なデータ拡張のための様々な戦略について検討する。
- 参考スコア(独自算出の注目度): 6.642383216055697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Learning models are incredibly data-hungry and require very large labeled datasets for supervised learning. As a consequence, these models often suffer from overfitting, limiting their ability to generalize to real-world examples. Recent advancements in diffusion models have enabled the generation of photorealistic images based on textual inputs. Leveraging the substantial datasets used to train these diffusion models, we propose a technique to utilize generated images to augment existing datasets. This paper explores various strategies for effective data augmentation to improve the out-of-domain generalization capabilities of deep learning models.
- Abstract(参考訳): ディープラーニングモデルは信じられないほどデータ不足であり、教師付き学習には非常に大きなラベル付きデータセットが必要です。
その結果、これらのモデルはしばしばオーバーフィットに悩まされ、現実世界の例に一般化する能力に制限される。
近年の拡散モデルの発展により,テキスト入力に基づくフォトリアリスティック画像の生成が可能になった。
そこで本研究では,これらの拡散モデルのトレーニングに使用する大量のデータセットを活用し,既存のデータセットを拡張するために生成された画像を利用する手法を提案する。
本稿では,深層学習モデルの領域外一般化能力を改善するために,効果的なデータ拡張のための様々な戦略について検討する。
関連論文リスト
- Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Active Generation for Image Classification [50.18107721267218]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Image retrieval outperforms diffusion models on data augmentation [36.559967424331695]
拡散モデルは、分類などの下流タスクのためのトレーニングデータセットを強化するために提案されている。
強化のために事前学習プロセスの追加データを直接利用して、改善を十分に一般化するかどうかは不明だ。
ターゲットデータに対する拡散モデルのパーソナライズは、より単純なプロンプト戦略より優れている。
しかし,拡散モデルの事前学習データのみを用いることで,より強力な下流性能が得られる。
論文 参考訳(メタデータ) (2023-04-20T12:21:30Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - Denoising Diffusion Probabilistic Models for Generation of Realistic
Fully-Annotated Microscopy Image Data Sets [1.07539359851877]
本研究では,拡散モデルにより,フルアノテートされた顕微鏡画像データセットを効果的に生成できることを実証する。
提案されたパイプラインは、ディープラーニングベースのセグメンテーションアプローチのトレーニングにおいて、手動アノテーションへの依存を減らすのに役立つ。
論文 参考訳(メタデータ) (2023-01-02T14:17:08Z) - A general approach to bridge the reality-gap [0.0]
これを回避するための一般的なアプローチは、大量のラベル付きデータを持つ既存の類似したデータセットを活用することである。
本稿では,任意の画像を正規分布へ変換する一般変換学習を提案する。
この変換は教師なしのシステムで訓練され、データの増大を利用して画像の非標準的な例を生成する。
論文 参考訳(メタデータ) (2020-09-03T18:19:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。