論文の概要: Diffusion Model with Clustering-based Conditioning for Food Image
Generation
- arxiv url: http://arxiv.org/abs/2309.00199v1
- Date: Fri, 1 Sep 2023 01:40:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 14:51:07.805773
- Title: Diffusion Model with Clustering-based Conditioning for Food Image
Generation
- Title(参考訳): 食品画像生成のためのクラスタリングに基づく拡散モデル
- Authors: Yue Han, Jiangpeng He, Mridul Gupta, Edward J. Delp, Fengqing Zhu
- Abstract要約: 深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
- 参考スコア(独自算出の注目度): 22.154182296023404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based dietary assessment serves as an efficient and accurate solution
for recording and analyzing nutrition intake using eating occasion images as
input. Deep learning-based techniques are commonly used to perform image
analysis such as food classification, segmentation, and portion size
estimation, which rely on large amounts of food images with annotations for
training. However, such data dependency poses significant barriers to
real-world applications, because acquiring a substantial, diverse, and balanced
set of food images can be challenging. One potential solution is to use
synthetic food images for data augmentation. Although existing work has
explored the use of generative adversarial networks (GAN) based structures for
generation, the quality of synthetic food images still remains subpar. In
addition, while diffusion-based generative models have shown promising results
for general image generation tasks, the generation of food images can be
challenging due to the substantial intra-class variance. In this paper, we
investigate the generation of synthetic food images based on the conditional
diffusion model and propose an effective clustering-based training framework,
named ClusDiff, for generating high-quality and representative food images. The
proposed method is evaluated on the Food-101 dataset and shows improved
performance when compared with existing image generation works. We also
demonstrate that the synthetic food images generated by ClusDiff can help
address the severe class imbalance issue in long-tailed food classification
using the VFN-LT dataset.
- Abstract(参考訳): イメージベースの食事アセスメントは、摂食時イメージを入力として、栄養摂取を記録および分析するための効率的かつ正確なソリューションである。
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられ、大量の食品画像とトレーニング用アノテーションに依存している。
しかし、そのようなデータ依存は、実質的で多様性があり、バランスのとれた食品画像の集合を取得することは、現実のアプリケーションにとって重大な障壁となる。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
既存の研究はgan(generative adversarial network)を基盤とした構造を生成に用いてきたが、食品画像の品質はいまだに劣っていない。
また,拡散型生成モデルでは,一般的な画像生成タスクには有望な結果が得られたが,食品画像の生成はクラス内変異が大きいため困難である。
本稿では,条件拡散モデルに基づく合成食品画像の生成について検討し,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークClusDiffを提案する。
提案手法は,food-101データセット上で評価され,既存の画像生成手法と比較して性能が向上した。
また,ClusDiffが生成した合成食品画像は,VFN-LTデータセットを用いた長期食品分類における厳密なクラス不均衡問題に対処できることを示した。
関連論文リスト
- Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - Shape-Preserving Generation of Food Images for Automatic Dietary Assessment [1.602820210496921]
条件付き食品画像生成のための簡単なGANベースのニューラルネットワークアーキテクチャを提案する。
生成された画像中の食品や容器の形状は、参照入力画像の形状とよく似ている。
論文 参考訳(メタデータ) (2024-08-23T20:18:51Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Conditional Synthetic Food Image Generation [12.235703733345833]
GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究の目的は,食品画像生成のためのGAN法の性能向上と性能向上である。
論文 参考訳(メタデータ) (2023-03-16T00:23:20Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。