論文の概要: Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
- arxiv url: http://arxiv.org/abs/2510.24078v1
- Date: Tue, 28 Oct 2025 05:40:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.793969
- Title: Beyond Objects: Contextual Synthetic Data Generation for Fine-Grained Classification
- Title(参考訳): Beyond Objects: 細粒度分類のためのコンテキスト合成データ生成
- Authors: William Yang, Xindi Wu, Zhiwei Deng, Esin Tureci, Olga Russakovsky,
- Abstract要約: テキスト・ツー・イメージ(T2I)モデルは、合成データセット生成にますます利用されている。
いくつかの実例でT2Iモデルを微調整することで、合成トレーニングデータの質を向上させることができる。
細粒度分類に対する懸念を軽減するための細粒度調整戦略BOB(Beyondjects)を提案する。
- 参考スコア(独自算出の注目度): 31.116511358786084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image (T2I) models are increasingly used for synthetic dataset generation, but generating effective synthetic training data for classification remains challenging. Fine-tuning a T2I model with a few real examples can help improve the quality of synthetic training data; however, it may also cause overfitting and reduce diversity in the generated samples. We propose a fine-tuning strategy BOB (BeyondOBjects) to mitigate these concerns for fine-grained classification. Given a small set of real examples, we first extract class-agnostic attributes such as scene background and object pose. We then explicitly condition on these attributes during fine-tuning of the T2I model and marginalize them out during generation. This design mitigates overfitting, preserves the T2I model's generative prior, reduces estimation errors, and further minimizes unintended inter-class associations. Extensive experiments across multiple T2I models, backbones, and datasets show that our method achieves state-of-the-art performance in low-shot fine-grained classification when augmented with synthetic data. Concretely, BOB outperforms DataDream by 7.4% on the Aircraft dataset (from 50.0% to 57.4% when fine-tuning a CLIP classifier with five real images augmented with 100 synthetic images). In three of the four benchmarks, fine-tuning downstream models with 5 real images augmented with BOB achieves better performance than fine-tuning with 10 real images. Collectively, BOB outperforms prior art in 18 of 24 experimental settings, with 2+% accuracy improvements in 14 of these settings.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、合成データセット生成にますます利用されているが、分類のための効果的な合成訓練データを生成することは、依然として困難である。
いくつかの実例でT2Iモデルを微調整することは、合成トレーニングデータの質を向上させるのに役立つが、生成したサンプルの過度な適合と多様性の低下を引き起こす可能性がある。
細粒度分類に対する懸念を軽減するための細粒度調整戦略BOB(Beyondjects)を提案する。
実例の小さなセットを前提として,シーン背景やオブジェクトポーズなどのクラスに依存しない属性を抽出する。
次に、T2Iモデルの微調整中にこれらの属性を明示的に条件付けし、世代間をマーカライズする。
この設計は過度な適合を緩和し、T2Iモデルの生成先行を保ち、推定誤差を低減し、意図しないクラス間の関連を最小化する。
複数のT2Iモデル, バックボーン, データセットにまたがる大規模な実験により, 合成データを付加した場合の低ショットきめ細粒度分類における最先端性能が得られた。
具体的には、BOBは、航空機のデータセットでDataDreamを7.4%上回っている(CLIP分類器を100の合成画像で5つの実画像で微調整したときの50.0%から57.4%)。
4つのベンチマークのうち、3つのベンチマークにおいて、BOBで拡張された5つの実画像を持つ微調整された下流モデルは、10つの実画像を持つ微調整よりも優れたパフォーマンスを達成する。
総合的には、BOBは、24の実験的な設定のうち18のアーティファクトで、14の設定で2%以上の精度向上を実現している。
関連論文リスト
- Stylized Structural Patterns for Improved Neural Network Pre-training [1.8641315013048299]
コンピュータビジョンにおけるディープラーニングモデルは、実際の画像の大規模なデータセットを必要とする。
最近の研究では、合成データが代替として提案されているが、訓練されたモデルはしばしば性能が劣っている。
そこで我々は,新しい種類の合成データを導入し,改良されたニューラルフラクタル定式化を提案する。
第二に,視覚的特徴を,ライセンスのない小さな実画像から合成データセットへ伝達する手法であるリバースススタイリングを提案する。
論文 参考訳(メタデータ) (2025-06-24T09:47:31Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Diffusion Curriculum: Synthetic-to-Real Data Curriculum via Image-Guided Diffusion [16.356794123589246]
品質の低いデータや少ないデータは、実際にディープニューラルネットワークをトレーニングする上で大きな課題となっている。
拡散カリキュラム(DisCL)は、訓練段階ごとに画像合成のイメージガイダンスレベルを調整する。
DisCLは、多様性や品質に弱いかもしれない高感度画像を学習するウォームアップとして、高品質な画像から特徴を学ぶことに焦点を当てている。
論文 参考訳(メタデータ) (2024-10-17T15:33:35Z) - DataDream: Few-shot Guided Dataset Generation [90.09164461462365]
実データ分布をより忠実に表現する分類データセットを合成するためのフレームワークを提案する。
DataDream fine-tunes LoRA weights for the image generation model on the few real image before generated the training data using the adapt model。
次に、合成データを用いてCLIPのLoRA重みを微調整し、様々なデータセットに対する以前のアプローチよりも下流画像の分類を改善する。
論文 参考訳(メタデータ) (2024-07-15T17:10:31Z) - Zero-Shot Distillation for Image Encoders: How to Make Effective Use of Synthetic Data [40.37396692278567]
我々は、効率的なゼロショット分類のための画像エンコーダの小さな変種を訓練することに重点を置いている。
合成データの使用は、より大きな教師の蒸留表現において有望であることが示され、強い数発のプローブ性能と線形プローブ性能が得られた。
対照的な損失を使用する場合、真のゼロショット設定では、このアプローチが驚くほど失敗することがわかった。
論文 参考訳(メタデータ) (2024-04-25T14:24:41Z) - TarGEN: Targeted Data Generation with Large Language Models [51.87504111286201]
TarGENは、高品質な合成データセットを生成するための、多段階のプロンプト戦略である。
我々は,LLMが不正確なラベル付きインスタンスを修正できるようにする自己補正法により,TarGENを増強する。
合成データセットを元のデータセットと比較した包括的な分析により、データセットの複雑さと多様性の類似または高いレベルが明らかになる。
論文 参考訳(メタデータ) (2023-10-27T03:32:17Z) - Feedback-guided Data Synthesis for Imbalanced Classification [10.836265321046561]
有用な合成サンプルを用いて静的データセットを拡張するためのフレームワークを提案する。
サンプルはタスクの実際のデータのサポートに近づき、十分に多様であることに気付きました。
ImageNet-LTでは、表現不足のクラスでは4%以上改善され、最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-09-29T21:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。