論文の概要: FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation
- arxiv url: http://arxiv.org/abs/2312.03540v1
- Date: Wed, 6 Dec 2023 15:07:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 14:35:05.841508
- Title: FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation
- Title(参考訳): foodfusion:リアルな食品画像生成のための潜在拡散モデル
- Authors: Olivia Markham and Yuhao Chen and Chi-en Amy Tai and Alexander Wong
- Abstract要約: 後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
- 参考スコア(独自算出の注目度): 69.91401809979709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art image generation models such as Latent Diffusion
Models (LDMs) have demonstrated the capacity to produce visually striking
food-related images. However, these generated images often exhibit an artistic
or surreal quality that diverges from the authenticity of real-world food
representations. This inadequacy renders them impractical for applications
requiring realistic food imagery, such as training models for image-based
dietary assessment. To address these limitations, we introduce FoodFusion, a
Latent Diffusion model engineered specifically for the faithful synthesis of
realistic food images from textual descriptions. The development of the
FoodFusion model involves harnessing an extensive array of open-source food
datasets, resulting in over 300,000 curated image-caption pairs. Additionally,
we propose and employ two distinct data cleaning methodologies to ensure that
the resulting image-text pairs maintain both realism and accuracy. The
FoodFusion model, thus trained, demonstrates a remarkable ability to generate
food images that exhibit a significant improvement in terms of both realism and
diversity over the publicly available image generation models. We openly share
the dataset and fine-tuned models to support advancements in this critical
field of food image synthesis at https://bit.ly/genai4good.
- Abstract(参考訳): 後期拡散モデル(LDM)のような最先端の画像生成モデルは、視覚的に印象的な食品関連画像を生成する能力を示している。
しかし、これらの画像は、しばしば実世界の食品表現の真正性から逸脱する芸術的または超現実的品質を示す。
この不十分さは、イメージベースの食事アセスメントのトレーニングモデルなど、現実的な食品イメージを必要とするアプリケーションでは実用的ではない。
この制限に対処するために,本研究では,テキスト記述からリアルな食品イメージを忠実に合成するための潜在拡散モデルであるfoodfusionを紹介する。
foodfusionモデルの開発には、さまざまなオープンソース食品データセットを活用することで、30万以上のキュレートされたイメージキャプチャペアが生成される。
さらに,得られた画像とテキストのペアが現実性と正確性を維持するために,二つの異なるデータクリーニング手法を提案する。
このようにトレーニングされたFoodFusionモデルは、公開されている画像生成モデルよりも現実性と多様性の両方において顕著に改善された食品画像を生成する能力を示す。
我々は、この重要な食品画像合成分野の進歩をサポートするために、データセットと微調整されたモデルを、https://bit.ly/genai4good.comでオープンに共有します。
関連論文リスト
- ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation [19.704975821172315]
我々は,真のマルチモーダル性を実現する新しい食品コンピューティング基盤モデルを導入する。
大規模言語モデル(LLM)と事前訓練された画像エンコーダおよびデコーダモデルを活用することで、我々のモデルはさまざまな食品コンピューティング関連のタスクを実行することができる。
論文 参考訳(メタデータ) (2024-09-18T14:24:29Z) - Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - Shape-Preserving Generation of Food Images for Automatic Dietary Assessment [1.602820210496921]
条件付き食品画像生成のための簡単なGANベースのニューラルネットワークアーキテクチャを提案する。
生成された画像中の食品や容器の形状は、参照入力画像の形状とよく似ている。
論文 参考訳(メタデータ) (2024-08-23T20:18:51Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - NutritionVerse-Thin: An Optimized Strategy for Enabling Improved
Rendering of 3D Thin Food Models [66.77685168785152]
薄型3D食品モデルのレンダリングを改善するための最適化戦略を提案する。
提案手法は,薄膜最適化微分可能再構成法を用いて3次元モデルメッシュを生成する。
単純ながら、この技術は細い3Dオブジェクトの迅速かつ高度に一貫したキャプチャに利用できる。
論文 参考訳(メタデータ) (2023-04-12T05:34:32Z) - Conditional Synthetic Food Image Generation [12.235703733345833]
GAN(Generative Adversarial Networks)はその強力な表現学習能力に基づいて画像合成のために広く研究されている。
本研究の目的は,食品画像生成のためのGAN法の性能向上と性能向上である。
論文 参考訳(メタデータ) (2023-03-16T00:23:20Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。