論文の概要: TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2304.08821v1
- Date: Tue, 18 Apr 2023 08:40:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 15:36:46.628672
- Title: TTIDA: Controllable Generative Data Augmentation via Text-to-Text and
Text-to-Image Models
- Title(参考訳): TTIDA:テキスト・ツー・テキスト・トゥ・イメージモデルによる制御可能な生成データ拡張
- Authors: Yuwei Yin, Jean Kaddour, Xiang Zhang, Yixin Nie, Zhenguang Liu,
Lingpeng Kong, Qi Liu
- Abstract要約: 本稿では,テキスト・トゥ・テクスト・トゥ・イメージ・データ拡張のための大規模事前学習テキスト・ツー・テクスト・トゥ・イメージ・ジェネレーティブ・モデルの有用性を活用するため,TIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
- 参考スコア(独自算出の注目度): 37.2392848181456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has been established as an efficacious approach to
supplement useful information for low-resource datasets. Traditional
augmentation techniques such as noise injection and image transformations have
been widely used. In addition, generative data augmentation (GDA) has been
shown to produce more diverse and flexible data. While generative adversarial
networks (GANs) have been frequently used for GDA, they lack diversity and
controllability compared to text-to-image diffusion models. In this paper, we
propose TTIDA (Text-to-Text-to-Image Data Augmentation) to leverage the
capabilities of large-scale pre-trained Text-to-Text (T2T) and Text-to-Image
(T2I) generative models for data augmentation. By conditioning the T2I model on
detailed descriptions produced by T2T models, we are able to generate
photo-realistic labeled images in a flexible and controllable manner.
Experiments on in-domain classification, cross-domain classification, and image
captioning tasks show consistent improvements over other data augmentation
baselines. Analytical studies in varied settings, including few-shot,
long-tail, and adversarial, further reinforce the effectiveness of TTIDA in
enhancing performance and increasing robustness.
- Abstract(参考訳): データ拡張は、低リソースデータセットの有用な情報を補完する有効なアプローチとして確立されている。
ノイズ注入や画像変換などの伝統的な拡張技術が広く使われている。
さらに、GDA(Generative Data Augmentation)は、より多様な柔軟なデータを生成することが示されている。
GDAにはGAN(Generative Adversarial Network)が頻繁に使われているが、テキスト・画像拡散モデルに比べて多様性と制御性に欠ける。
本稿では,TTIDA(Text-to-Text-to-Image Data Augmentation)を提案する。
T2Tモデルによる詳細な記述にT2Iモデルを適用することにより、フレキシブルかつ制御可能な方法で写真リアルなラベル付き画像を生成することができる。
ドメイン内分類、クロスドメイン分類、画像キャプションタスクの実験は、他のデータ拡張ベースラインよりも一貫した改善を示している。
少数ショット、ロングテール、敵対といった様々な場面における分析研究は、パフォーマンスの向上と堅牢性向上におけるTIDAの有効性をさらに強化する。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - Erase, then Redraw: A Novel Data Augmentation Approach for Free Space Detection Using Diffusion Model [5.57325257338134]
従来のデータ拡張方法は、ハイレベルなセマンティック属性を変更することはできない。
画像から画像への変換をパラメータ化するためのテキスト間拡散モデルを提案する。
我々は、元のデータセットから実際のオブジェクトのインスタンスを消去し、削除されたリージョンで同様の意味を持つ新しいインスタンスを生成することで、この目標を達成する。
論文 参考訳(メタデータ) (2024-09-30T10:21:54Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。
本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。
提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T17:27:34Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Not Just Pretty Pictures: Toward Interventional Data Augmentation Using Text-to-Image Generators [12.053125079460234]
このような環境要因に対する任意の介入をシミュレートするために、現代のT2Iジェネレータがどのように使用できるかを示す。
我々の経験的発見は、安定拡散のような現代のT2Iジェネレータが、強力な介入データ拡張メカニズムとして実際に使用できることを示している。
論文 参考訳(メタデータ) (2022-12-21T18:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。