論文の概要: Fill-Up: Balancing Long-Tailed Data with Generative Models
- arxiv url: http://arxiv.org/abs/2306.07200v1
- Date: Mon, 12 Jun 2023 16:01:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 13:51:11.539975
- Title: Fill-Up: Balancing Long-Tailed Data with Generative Models
- Title(参考訳): fill-up: ロングテールデータと生成モデルとのバランス
- Authors: Joonghyuk Shin, Minguk Kang, Jaesik Park
- Abstract要約: 本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。
テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。
また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
- 参考スコア(独自算出の注目度): 11.91669614267993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern text-to-image synthesis models have achieved an exceptional level of
photorealism, generating high-quality images from arbitrary text descriptions.
In light of the impressive synthesis ability, several studies have exhibited
promising results in exploiting generated data for image recognition. However,
directly supplementing data-hungry situations in the real-world (e.g. few-shot
or long-tailed scenarios) with existing approaches result in marginal
performance gains, as they suffer to thoroughly reflect the distribution of the
real data. Through extensive experiments, this paper proposes a new image
synthesis pipeline for long-tailed situations using Textual Inversion. The
study demonstrates that generated images from textual-inverted text tokens
effectively aligns with the real domain, significantly enhancing the
recognition ability of a standard ResNet50 backbone. We also show that
real-world data imbalance scenarios can be successfully mitigated by filling up
the imbalanced data with synthetic images. In conjunction with techniques in
the area of long-tailed recognition, our method achieves state-of-the-art
results on standard long-tailed benchmarks when trained from scratch.
- Abstract(参考訳): 現代のテキストから画像への合成モデルは、任意のテキスト記述から高品質の画像を生成するという、例外的なレベルのフォトリアリズムを達成している。
印象的な合成能力に照らして、いくつかの研究は画像認識に生成されたデータを利用する有望な結果を示している。
しかし、実世界のデータ・ハングリーの状況を直接補う(例:数ショットやロングテールのシナリオ)と既存のアプローチは、実際のデータの分布を徹底的に反映することに苦しむため、限界的なパフォーマンス向上をもたらす。
本稿では,テキストインバージョンを用いたロングテール状況のための新しい画像合成パイプラインを提案する。
テキスト反転されたテキストトークンから生成された画像は、実ドメインと効果的に一致し、標準のResNet50バックボーンの認識能力を著しく向上することを示した。
また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
ロングテール認識の分野における手法と組み合わせることで、スクラッチからトレーニングすると、標準ロングテールベンチマークで最先端の結果が得られる。
関連論文リスト
- Towards Realistic Data Generation for Real-World Super-Resolution [58.88039242455039]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。
我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。
実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文 参考訳(メタデータ) (2024-06-11T13:34:57Z) - Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。
本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。
提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T17:27:34Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。
本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。
本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-07-17T14:38:11Z) - Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。
マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。
我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文 参考訳(メタデータ) (2023-05-29T13:18:59Z) - Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。
本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文 参考訳(メタデータ) (2022-10-14T06:54:24Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。