論文の概要: Conditional Synthetic Food Image Generation
- arxiv url: http://arxiv.org/abs/2303.09005v1
- Date: Thu, 16 Mar 2023 00:23:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:22:17.668839
- Title: Conditional Synthetic Food Image Generation
- Title(参考訳): 条件付き合成食品画像生成
- Authors: Wenjin Fu, Yue Han, Jiangpeng He, Sriram Baireddy, Mridul Gupta,
Fengqing Zhu
- Abstract要約: GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究の目的は,食品画像生成のためのGAN法の性能向上と性能向上である。
- 参考スコア(独自算出の注目度): 12.235703733345833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GAN) have been widely investigated for image
synthesis based on their powerful representation learning ability. In this
work, we explore the StyleGAN and its application of synthetic food image
generation. Despite the impressive performance of GAN for natural image
generation, food images suffer from high intra-class diversity and inter-class
similarity, resulting in overfitting and visual artifacts for synthetic images.
Therefore, we aim to explore the capability and improve the performance of GAN
methods for food image generation. Specifically, we first choose StyleGAN3 as
the baseline method to generate synthetic food images and analyze the
performance. Then, we identify two issues that can cause performance
degradation on food images during the training phase: (1) inter-class feature
entanglement during multi-food classes training and (2) loss of high-resolution
detail during image downsampling. To address both issues, we propose to train
one food category at a time to avoid feature entanglement and leverage image
patches cropped from high-resolution datasets to retain fine details. We
evaluate our method on the Food-101 dataset and show improved quality of
generated synthetic food images compared with the baseline. Finally, we
demonstrate the great potential of improving the performance of downstream
tasks, such as food image classification by including high-quality synthetic
training samples in the data augmentation.
- Abstract(参考訳): GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究では,合成食品画像生成のスタイルガンとその応用について検討する。
自然画像生成におけるGANの顕著な性能にもかかわらず、食品画像は、高いクラス内多様性とクラス間類似性に悩まされ、過剰適合と合成画像の視覚的アーティファクトをもたらす。
そこで本研究では,食品画像生成のためのGAN法の性能向上を図る。
具体的には,まず,合成食品画像の生成と性能解析のためのベースラインとしてstylegan3を選択した。
そして,訓練期間中に食品画像のパフォーマンス劣化を引き起こす2つの課題を同定した。(1) クラス間特徴の絡み合い,(2) イメージダウンサンプリング中に高精細度の詳細が失われることである。
この問題に対処するため,我々は1つの食品カテゴリを一度に訓練し,特徴の絡み合いを回避し,高解像度データセットから切り出された画像パッチを活用して詳細を保持することを提案する。
本手法をFood-101データセット上で評価し,生成した合成食品画像の品質をベースラインと比較した。
最後に,データ拡張に高品質な合成トレーニングサンプルを含めることで,食品画像分類などの下流タスクのパフォーマンス向上の可能性を示す。
関連論文リスト
- FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - Feature-Suppressed Contrast for Self-Supervised Food Pre-training [22.48308786497061]
ビュー間の相互情報を低減するためにFeaSC(FeaSC)を提案する。
FeaSCはレスポンシブ・アウェア・スキームを使用して、教師なしの方法で健全な特徴をローカライズする。
プラグアンドプレイモジュールとして、提案手法は、BYOLとSimSiamを1.70%$sim$ 6.69%の分類精度で改善する。
論文 参考訳(メタデータ) (2023-08-07T03:27:04Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Improving Synthetically Generated Image Detection in Cross-Concept
Settings [20.21594285488186]
我々は、例えば、人間の顔に検出器を訓練する際に、様々な概念クラスをまたがって一般化するという課題に焦点をあてる。
本稿では,現実的な合成画像上での学習により,検出器の堅牢性を向上できるという前提に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-24T12:45:00Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。