Fugu-MT 論文翻訳(概要): Fill-Up: Balancing Long-Tailed Data with Generative Models

論文の概要: Fill-Up: Balancing Long-Tailed Data with Generative Models

arxiv url: http://arxiv.org/abs/2306.07200v1
Date: Mon, 12 Jun 2023 16:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 13:51:11.539975
Title: Fill-Up: Balancing Long-Tailed Data with Generative Models
Title（参考訳）: fill-up: ロングテールデータと生成モデルとのバランス
Authors: Joonghyuk Shin, Minguk Kang, Jaesik Park
Abstract要約: 本論文では,テクスチュアル・インバージョンを用いた長期状況のための画像合成パイプラインを提案する。テキスト反転されたテキストトークンから生成された画像は、実領域と効果的に一致していることを示す。また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。
参考スコア（独自算出の注目度）: 11.91669614267993
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern text-to-image synthesis models have achieved an exceptional level of photorealism, generating high-quality images from arbitrary text descriptions. In light of the impressive synthesis ability, several studies have exhibited promising results in exploiting generated data for image recognition. However, directly supplementing data-hungry situations in the real-world (e.g. few-shot or long-tailed scenarios) with existing approaches result in marginal performance gains, as they suffer to thoroughly reflect the distribution of the real data. Through extensive experiments, this paper proposes a new image synthesis pipeline for long-tailed situations using Textual Inversion. The study demonstrates that generated images from textual-inverted text tokens effectively aligns with the real domain, significantly enhancing the recognition ability of a standard ResNet50 backbone. We also show that real-world data imbalance scenarios can be successfully mitigated by filling up the imbalanced data with synthetic images. In conjunction with techniques in the area of long-tailed recognition, our method achieves state-of-the-art results on standard long-tailed benchmarks when trained from scratch.
Abstract（参考訳）: 現代のテキストから画像への合成モデルは、任意のテキスト記述から高品質の画像を生成するという、例外的なレベルのフォトリアリズムを達成している。印象的な合成能力に照らして、いくつかの研究は画像認識に生成されたデータを利用する有望な結果を示している。しかし、実世界のデータ・ハングリーの状況を直接補う(例:数ショットやロングテールのシナリオ)と既存のアプローチは、実際のデータの分布を徹底的に反映することに苦しむため、限界的なパフォーマンス向上をもたらす。本稿では,テキストインバージョンを用いたロングテール状況のための新しい画像合成パイプラインを提案する。テキスト反転されたテキストトークンから生成された画像は、実ドメインと効果的に一致し、標準のResNet50バックボーンの認識能力を著しく向上することを示した。また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。ロングテール認識の分野における手法と組み合わせることで、スクラッチからトレーニングすると、標準ロングテールベンチマークで最先端の結果が得られる。

関連論文リスト

RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm [34.02250139766494]
Contrastive Language-Image Pre-Training (CLIP)は、様々なベンチマークで有望なパフォーマンスを示す。マルチモーダルなインターリーブド文書のかなりの量は、コントラッシブな視覚言語表現学習に使われていない。高品質な画像やテキストを抽出するリアルタイムデータ抽出パイプラインを構築した。そして,各画像と複数の意味的関連現実的テキストを効率的に関連付ける階層的検索手法を設計する。リアルテキストと合成テキストを組み合わせたデータセットであるRealSynを構築し,15M,30M,100Mの3つのスケールで利用可能である。
論文参考訳（メタデータ） (2025-02-18T03:58:38Z)
Towards Realistic Data Generation for Real-World Super-Resolution [58.88039242455039]
RealDGenは、現実世界の超解像のために設計された教師なし学習データ生成フレームワークである。我々は,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を開発する。実験により、RealDGenは、現実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れていることが示された。
論文参考訳（メタデータ） (2024-06-11T13:34:57Z)
Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2024-06-01T17:27:34Z)
Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文参考訳（メタデータ） (2024-03-28T22:25:05Z)
Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。 SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文参考訳（メタデータ） (2024-03-20T17:59:43Z)
Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文参考訳（メタデータ） (2023-11-07T12:57:58Z)
Image Captions are Natural Prompts for Text-to-Image Models [70.30915140413383]
本研究では,合成データの学習効果とプロンプトによる合成データ分布の関係を解析した。本稿では,テキストから画像への生成モデルにより,より情報的で多様な学習データを合成する簡易かつ効果的な手法を提案する。本手法は,合成学習データに基づいて訓練したモデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2023-07-17T14:38:11Z)
Image Captioning with Multi-Context Synthetic Data [16.961112970612447]
大規模なモデルは高品質な画像やテキストを作成するのに優れています。マルチコンテキストデータ生成を導入した革新的なパイプラインを提案する。我々のモデルは、このプロセスを通じて構築された合成画像テキストペアに特化して訓練されている。
論文参考訳（メタデータ） (2023-05-29T13:18:59Z)
Generalizable Synthetic Image Detection via Language-guided Contrastive Learning [22.533225521726116]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。本稿では,言語誘導型コントラスト学習を用いた簡易かつ効果的な合成画像検出手法を提案する。提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文参考訳（メタデータ） (2023-05-23T08:13:27Z)
Is synthetic data from generative models ready for image recognition? [69.42645602062024]
本研究では,最新のテキスト・画像生成モデルから生成した合成画像が,画像認識タスクにどのように利用できるかを検討した。本稿では,既存の生成モデルからの合成データの強大さと欠点を示し,認識タスクに合成データを適用するための戦略を提案する。
論文参考訳（メタデータ） (2022-10-14T06:54:24Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-10T00:33:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。