論文の概要: Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data
- arxiv url: http://arxiv.org/abs/2505.10551v1
- Date: Thu, 15 May 2025 17:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.455319
- Title: Does Feasibility Matter? Understanding the Impact of Feasibility on Synthetic Training Data
- Title(参考訳): フェーザビリティは重要か? : フェーザビリティが総合訓練データに与える影響を理解する
- Authors: Yiwen Liu, Jessica Bader, Jae Myung Kim,
- Abstract要約: CLIPをベースとした分類器の合成訓練データを生成するためには,実現可能性の確保が必要であるかを検討する。
VariRealは、あるソースイメージを最小限に編集して、実現不可能または実現不可能な属性を含むパイプラインである。
実験の結果,ロラファインチューニングCLIPの精度は0.3%以下であり,実現可能性も最小限に抑えられることがわかった。
- 参考スコア(独自算出の注目度): 5.017375753885033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of photorealistic diffusion models, models trained in part or fully on synthetic data achieve progressively better results. However, diffusion models still routinely generate images that would not exist in reality, such as a dog floating above the ground or with unrealistic texture artifacts. We define the concept of feasibility as whether attributes in a synthetic image could realistically exist in the real-world domain; synthetic images containing attributes that violate this criterion are considered infeasible. Intuitively, infeasible images are typically considered out-of-distribution; thus, training on such images is expected to hinder a model's ability to generalize to real-world data, and they should therefore be excluded from the training set whenever possible. However, does feasibility really matter? In this paper, we investigate whether enforcing feasibility is necessary when generating synthetic training data for CLIP-based classifiers, focusing on three target attributes: background, color, and texture. We introduce VariReal, a pipeline that minimally edits a given source image to include feasible or infeasible attributes given by the textual prompt generated by a large language model. Our experiments show that feasibility minimally affects LoRA-fine-tuned CLIP performance, with mostly less than 0.3% difference in top-1 accuracy across three fine-grained datasets. Also, the attribute matters on whether the feasible/infeasible images adversarially influence the classification performance. Finally, mixing feasible and infeasible images in training datasets does not significantly impact performance compared to using purely feasible or infeasible datasets.
- Abstract(参考訳): フォトリアリスティック拡散モデルの開発により、部分的にまたは完全に合成データに基づいて訓練されたモデルは、徐々により良い結果が得られる。
しかし、拡散モデルは、地上に浮かぶ犬や非現実的なテクスチャアーティファクトなど、現実には存在しないイメージを日常的に生成する。
我々は、合成画像の属性が現実の領域に現実的に存在するかどうかを、実現可能性の概念を定義し、この基準に違反した属性を含む合成画像は、実現不可能と見なす。
直感的には、実現不可能なイメージは一般的に配布外と見なされるので、そのようなイメージのトレーニングは、モデルが現実世界のデータに一般化する能力を妨げ、可能な限りトレーニングセットから除外されるべきである。
しかし、実現性は本当に重要ですか?
本稿では,CLIPに基づく分類器の合成学習データを生成する際に,背景,色,テクスチャの3つの属性に着目し,実現可能性を検討する。
VariRealは、与えられたソースイメージを最小限に編集して、大きな言語モデルによって生成されたテキストプロンプトによって与えられる、実現不可能な属性を含むパイプラインである。
実験の結果,3つの細粒度データセット間のトップ1精度の差はほぼ0.3%以下であり,ロラ微細調整CLIP性能に最小限の影響が認められた。
また、その属性は、実現不可能な画像が分類性能に逆らうか否かを重要視する。
最後に、トレーニングデータセットで実現不可能なイメージと実用不可能なイメージを混合することは、純粋に実現不可能なデータセットまたは実用不可能なデータセットを使用する場合と比較して、パフォーマンスに大きく影響しない。
関連論文リスト
- Mind the Gap Between Synthetic and Real: Utilizing Transfer Learning to Probe the Boundaries of Stable Diffusion Generated Data [2.6016285265085526]
学生モデルは、実際のデータで訓練されたモデルと比較して、精度が著しく低下している。
実データまたは合成データを用いてこれらのレイヤをトレーニングすることにより、ドロップが主にモデルの最終的なレイヤに由来することを明らかにする。
この結果から,実際のトレーニングデータの量とモデルの精度とのトレードオフの改善が示唆された。
論文 参考訳(メタデータ) (2024-05-06T07:51:13Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Intrinsic Image Diffusion for Indoor Single-view Material Estimation [55.276815106443976]
室内シーンの外観分解のための生成モデルIntrinsic Image Diffusionを提案する。
1つの入力ビューから、アルベド、粗さ、および金属地図として表される複数の材料説明をサンプリングする。
提案手法は,PSNRで1.5dB$,アルベド予測で45%のFIDスコアを達成し,よりシャープで,より一貫性があり,より詳細な資料を生成する。
論文 参考訳(メタデータ) (2023-12-19T15:56:19Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - CIFAKE: Image Classification and Explainable Identification of
AI-Generated Synthetic Images [7.868449549351487]
本稿では,コンピュータビジョンによるAI生成画像の認識能力を高めることを提案する。
写真が本物かAIによって生成されるかに関して、バイナリ分類問題として存在する2つのデータセット。
本研究では,畳み込みニューラルネットワーク(CNN)を用いて画像をリアルとフェイクの2つのカテゴリに分類する。
論文 参考訳(メタデータ) (2023-03-24T16:33:06Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。