論文の概要: Conditional Synthetic Food Image Generation
- arxiv url: http://arxiv.org/abs/2303.09005v1
- Date: Thu, 16 Mar 2023 00:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:22:17.668839
- Title: Conditional Synthetic Food Image Generation
- Title(参考訳): 条件付き合成食品画像生成
- Authors: Wenjin Fu, Yue Han, Jiangpeng He, Sriram Baireddy, Mridul Gupta,
Fengqing Zhu
- Abstract要約: GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究の目的は,食品画像生成のためのGAN法の性能向上と性能向上である。
- 参考スコア(独自算出の注目度): 12.235703733345833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GAN) have been widely investigated for image
synthesis based on their powerful representation learning ability. In this
work, we explore the StyleGAN and its application of synthetic food image
generation. Despite the impressive performance of GAN for natural image
generation, food images suffer from high intra-class diversity and inter-class
similarity, resulting in overfitting and visual artifacts for synthetic images.
Therefore, we aim to explore the capability and improve the performance of GAN
methods for food image generation. Specifically, we first choose StyleGAN3 as
the baseline method to generate synthetic food images and analyze the
performance. Then, we identify two issues that can cause performance
degradation on food images during the training phase: (1) inter-class feature
entanglement during multi-food classes training and (2) loss of high-resolution
detail during image downsampling. To address both issues, we propose to train
one food category at a time to avoid feature entanglement and leverage image
patches cropped from high-resolution datasets to retain fine details. We
evaluate our method on the Food-101 dataset and show improved quality of
generated synthetic food images compared with the baseline. Finally, we
demonstrate the great potential of improving the performance of downstream
tasks, such as food image classification by including high-quality synthetic
training samples in the data augmentation.
- Abstract(参考訳): GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究では,合成食品画像生成のスタイルガンとその応用について検討する。
自然画像生成におけるGANの顕著な性能にもかかわらず、食品画像は、高いクラス内多様性とクラス間類似性に悩まされ、過剰適合と合成画像の視覚的アーティファクトをもたらす。
そこで本研究では,食品画像生成のためのGAN法の性能向上を図る。
具体的には,まず,合成食品画像の生成と性能解析のためのベースラインとしてstylegan3を選択した。
そして,訓練期間中に食品画像のパフォーマンス劣化を引き起こす2つの課題を同定した。(1) クラス間特徴の絡み合い,(2) イメージダウンサンプリング中に高精細度の詳細が失われることである。
この問題に対処するため,我々は1つの食品カテゴリを一度に訓練し,特徴の絡み合いを回避し,高解像度データセットから切り出された画像パッチを活用して詳細を保持することを提案する。
本手法をFood-101データセット上で評価し,生成した合成食品画像の品質をベースラインと比較した。
最後に,データ拡張に高品質な合成トレーニングサンプルを含めることで,食品画像分類などの下流タスクのパフォーマンス向上の可能性を示す。
関連論文リスト
- Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - Shape-Preserving Generation of Food Images for Automatic Dietary Assessment [1.602820210496921]
条件付き食品画像生成のための簡単なGANベースのニューラルネットワークアーキテクチャを提案する。
生成された画像中の食品や容器の形状は、参照入力画像の形状とよく似ている。
論文 参考訳(メタデータ) (2024-08-23T20:18:51Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。