論文の概要: Learning Program Representations for Food Images and Cooking Recipes
- arxiv url: http://arxiv.org/abs/2203.16071v1
- Date: Wed, 30 Mar 2022 05:52:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 15:05:04.424976
- Title: Learning Program Representations for Food Images and Cooking Recipes
- Title(参考訳): 食品画像と調理レシピの学習プログラム表現
- Authors: Dim P. Papadopoulos, Enrique Mora, Nadiia Chepurko, Kuan Wei Huang,
Ferda Ofli and Antonio Torralba
- Abstract要約: 料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
モデルは、自己監督を通じてレシピと食品画像の結合埋め込みを学ぶために訓練される。
プログラムへのイメージ・レシピの埋め込みを投影すると、モーダル横断検索結果がより良くなることを示す。
- 参考スコア(独自算出の注目度): 26.054436410924737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we are interested in modeling a how-to instructional
procedure, such as a cooking recipe, with a meaningful and rich high-level
representation. Specifically, we propose to represent cooking recipes and food
images as cooking programs. Programs provide a structured representation of the
task, capturing cooking semantics and sequential relationships of actions in
the form of a graph. This allows them to be easily manipulated by users and
executed by agents. To this end, we build a model that is trained to learn a
joint embedding between recipes and food images via self-supervision and
jointly generate a program from this embedding as a sequence. To validate our
idea, we crowdsource programs for cooking recipes and show that: (a) projecting
the image-recipe embeddings into programs leads to better cross-modal retrieval
results; (b) generating programs from images leads to better recognition
results compared to predicting raw cooking instructions; and (c) we can
generate food images by manipulating programs via optimizing the latent code of
a GAN. Code, data, and models are available online.
- Abstract(参考訳): 本稿では,料理レシピなどのハウツー指導手順を,有意義でリッチなハイレベル表現でモデル化することに興味がある。
具体的には,料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
プログラムはタスクの構造的な表現を提供し、グラフの形式で料理の意味やアクションのシーケンシャルな関係をキャプチャする。
これにより、ユーザーは簡単に操作でき、エージェントによって実行される。
この目的のために,レシピと食品イメージの融合組込みを自己スーパービジョンで学習し,この組込みをシーケンスとしてプログラムを共同で生成するモデルを構築する。
アイデアを検証するために、私たちはレシピを作るためのプログラムをクラウドソースし、次のように示します。
(a) 画像レシピ埋め込みをプログラムに投影することは、より優れたクロスモーダル検索結果をもたらす。
(b)画像からプログラムを生成すると、生の調理指示の予測よりも認識結果が良くなる。
(c)ganの潜在コードを最適化することでプログラムを操作することで食品画像を生成することができる。
コード、データ、モデルはオンラインで入手できる。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。