論文の概要: RecipeGen: A Step-Aligned Multimodal Benchmark for Real-World Recipe Generation
- arxiv url: http://arxiv.org/abs/2506.06733v2
- Date: Tue, 10 Jun 2025 09:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:40.16713
- Title: RecipeGen: A Step-Aligned Multimodal Benchmark for Real-World Recipe Generation
- Title(参考訳): RecipeGen: 実世界のレシピ生成のためのステップアラインなマルチモーダルベンチマーク
- Authors: Ruoxuan Zhang, Jidong Gao, Bin Wen, Hongxia Xie, Chenming Zhang, Hong-Han Shuai, Wen-Huang Cheng,
- Abstract要約: レシピベースのText-to-Image (T2I), Image-to-Video (I2V), Text-to-Video (T2V) 生成のための,最初の大規模実世界のベンチマークであるRecipeGenを紹介する。
RecipeGenには、レシピ26,453件、画像196,724件、ビデオ4,491件が含まれており、さまざまな材料、調理手順、スタイル、料理の種類をカバーしている。
- 参考スコア(独自算出の注目度): 26.22225188044472
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Creating recipe images is a key challenge in food computing, with applications in culinary education and multimodal recipe assistants. However, existing datasets lack fine-grained alignment between recipe goals, step-wise instructions, and visual content. We present RecipeGen, the first large-scale, real-world benchmark for recipe-based Text-to-Image (T2I), Image-to-Video (I2V), and Text-to-Video (T2V) generation. RecipeGen contains 26,453 recipes, 196,724 images, and 4,491 videos, covering diverse ingredients, cooking procedures, styles, and dish types. We further propose domain-specific evaluation metrics to assess ingredient fidelity and interaction modeling, benchmark representative T2I, I2V, and T2V models, and provide insights for future recipe generation models. Project page is available now.
- Abstract(参考訳): レシピイメージの作成は、料理教育やマルチモーダルレシピアシスタントなど、食品コンピューティングにおける重要な課題である。
しかし、既存のデータセットにはレシピのゴール、ステップワイズインストラクション、ビジュアルコンテントの微調整がない。
レシピベースのText-to-Image (T2I), Image-to-Video (I2V), Text-to-Video (T2V) 生成のための,最初の大規模実世界のベンチマークであるRecipeGenを紹介する。
RecipeGenには、レシピ26,453件、画像196,724件、ビデオ4,491件が含まれており、さまざまな材料、調理手順、スタイル、料理の種類をカバーしている。
さらに、成分の忠実度と相互作用モデル、ベンチマーク代表T2I、I2V、およびT2Vモデルを評価するためのドメイン固有の評価指標を提案し、今後のレシピ生成モデルに対する洞察を提供する。
プロジェクトページはこちら。
関連論文リスト
- RecipeGen: A Benchmark for Real-World Recipe Image Generation [28.655663435450766]
RecipeGenは、レシピ生成のための最初の実世界のゴール-ステップ-イメージベンチマークである。
様々な食材、様々なレシピのステップ、料理のスタイル、幅広い食品カテゴリーが特徴である。
論文 参考訳(メタデータ) (2025-03-07T08:25:28Z) - CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation [19.704975821172315]
我々は,真のマルチモーダル性を実現する新しい食品コンピューティング基盤モデルを導入する。
大規模言語モデル(LLM)と事前訓練された画像エンコーダおよびデコーダモデルを活用することで、我々のモデルはさまざまな食品コンピューティング関連のタスクを実行することができる。
論文 参考訳(メタデータ) (2024-09-18T14:24:29Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。