論文の概要: Omni-Dish: Photorealistic and Faithful Image Generation and Editing for Arbitrary Chinese Dishes
- arxiv url: http://arxiv.org/abs/2504.09948v3
- Date: Thu, 01 May 2025 01:58:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.501221
- Title: Omni-Dish: Photorealistic and Faithful Image Generation and Editing for Arbitrary Chinese Dishes
- Title(参考訳): Omni-Dish:任意の中国語のディッシュのためのフォトリアリスティックで忠実な画像生成と編集
- Authors: Huijie Liu, Bingcan Wang, Jie Hu, Xiaoming Wei, Guoliang Kang,
- Abstract要約: 中国料理に特化された最初のテキスト・画像生成モデルであるOmni-Dishを提案する。
われわれは、これまでで最大の食器データセットを構築した総合的な食器キュレーションパイプラインを開発した。
本稿では, より詳細な料理のニュアンスを学習するのに役立つため, キャプション・ストラテジーを導入し, 粗大な訓練手法を採用する。
- 参考スコア(独自算出の注目度): 15.441698722642009
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dish images play a crucial role in the digital era, with the demand for culturally distinctive dish images continuously increasing due to the digitization of the food industry and e-commerce. In general cases, existing text-to-image generation models excel in producing high-quality images; however, they struggle to capture diverse characteristics and faithful details of specific domains, particularly Chinese dishes. To address this limitation, we propose Omni-Dish, the first text-to-image generation model specifically tailored for Chinese dishes. We develop a comprehensive dish curation pipeline, building the largest dish dataset to date. Additionally, we introduce a recaption strategy and employ a coarse-to-fine training scheme to help the model better learn fine-grained culinary nuances. During inference, we enhance the user's textual input using a pre-constructed high-quality caption library and a large language model, enabling more photorealistic and faithful image generation. Furthermore, to extend our model's capability for dish editing tasks, we propose Concept-Enhanced P2P. Based on this approach, we build a dish editing dataset and train a specialized editing model. Extensive experiments demonstrate the superiority of our methods.
- Abstract(参考訳): デジタル時代には、食材産業や電子商取引のデジタル化により、文化的に独特な食器イメージの需要が継続的に増加し、ディッシュイメージが重要な役割を担っている。
通常、既存のテキスト・画像生成モデルは高品質な画像の制作に優れているが、特定のドメイン、特に中華料理の多様な特徴や忠実な詳細を捉えるのに苦労している。
この制限に対処するため,中国料理に特化した最初のテキスト・画像生成モデルであるOmni-Dishを提案する。
われわれは、これまでで最大の食器データセットを構築した総合的な食器キュレーションパイプラインを開発した。
さらに,再現戦略を導入し,きめ細かな料理のニュアンスをよりよく学習するための粗い訓練手法を採用する。
推論の際には,事前構築された高品質なキャプションライブラリと大規模言語モデルを用いてユーザのテキスト入力を強化し,よりフォトリアリスティックで忠実な画像生成を可能にする。
さらに,食器編集作業におけるモデルの能力を拡張するために,概念強化型P2Pを提案する。
このアプローチに基づいて、食器編集データセットを構築し、専門的な編集モデルを訓練する。
大規模な実験は、我々の方法の優越性を実証している。
関連論文リスト
- Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model [69.09404597939744]
Seedream 2.0は、中国語と英語のバイリンガル画像生成基盤モデルである。
中国語と英語の両方でテキストプロンプトを管理し、バイリンガル画像生成とテキストレンダリングをサポートする。
テキストエンコーダとして自己開発されたバイリンガルな大規模言語モデルと統合されており、大量のデータから直接ネイティブ知識を学習することができる。
論文 参考訳(メタデータ) (2025-03-10T17:58:33Z) - Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。
まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。
第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文 参考訳(メタデータ) (2024-09-30T04:59:12Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [65.73013453373349]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Deep Image-to-Recipe Translation [0.0]
Deep Image-to-Recipe Translation(ディープ・イメージ・ツー・レシピ・トランスレーション)は、鮮やかな食品記憶と料理作りの技法のギャップを埋めることを目的としている。
我々の主な目的は、所定の食品画像から成分を予測することである。
我々のアプローチは、正確性だけで誤解を招く可能性のあるシナリオにおいて、IoU(Intersection over Union)やF1スコアのようなメトリクスの重要性を強調します。
論文 参考訳(メタデータ) (2024-07-01T02:33:07Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。
本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。
FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文 参考訳(メタデータ) (2023-12-06T15:07:12Z) - NutritionVerse-Thin: An Optimized Strategy for Enabling Improved
Rendering of 3D Thin Food Models [66.77685168785152]
薄型3D食品モデルのレンダリングを改善するための最適化戦略を提案する。
提案手法は,薄膜最適化微分可能再構成法を用いて3次元モデルメッシュを生成する。
単純ながら、この技術は細い3Dオブジェクトの迅速かつ高度に一貫したキャプチャに利用できる。
論文 参考訳(メタデータ) (2023-04-12T05:34:32Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - CookGAN: Meal Image Synthesis from Ingredients [24.295634252929112]
生成深度モデルに基づく新しい計算フレームワークを提案し,その成分のテキストリストから写真リアルな食品食のイメージを合成する。
CookGANは、注意に基づく材料イメージアソシエーションモデルを構築し、食事画像の合成を行う生成ニューラルネットワークの条件付けに使用される。
論文 参考訳(メタデータ) (2020-02-25T00:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。