論文の概要: Multi-modal Cooking Workflow Construction for Food Recipes
- arxiv url: http://arxiv.org/abs/2008.09151v1
- Date: Thu, 20 Aug 2020 18:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 03:49:00.991426
- Title: Multi-modal Cooking Workflow Construction for Food Recipes
- Title(参考訳): 食品レシピのマルチモーダル調理ワークフロー構築
- Authors: Liangming Pan, Jingjing Chen, Jianlong Wu, Shaoteng Liu, Chong-Wah
Ngo, Min-Yen Kan, Yu-Gang Jiang, Tat-Seng Chua
- Abstract要約: ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
- 参考スコア(独自算出の注目度): 147.4435186953995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding food recipe requires anticipating the implicit causal effects
of cooking actions, such that the recipe can be converted into a graph
describing the temporal workflow of the recipe. This is a non-trivial task that
involves common-sense reasoning. However, existing efforts rely on hand-crafted
features to extract the workflow graph from recipes due to the lack of
large-scale labeled datasets. Moreover, they fail to utilize the cooking
images, which constitute an important part of food recipes. In this paper, we
build MM-ReS, the first large-scale dataset for cooking workflow construction,
consisting of 9,850 recipes with human-labeled workflow graphs. Cooking steps
are multi-modal, featuring both text instructions and cooking images. We then
propose a neural encoder-decoder model that utilizes both visual and textual
information to construct the cooking workflow, which achieved over 20%
performance gain over existing hand-crafted baselines.
- Abstract(参考訳): 料理のレシピを理解するには、調理行動の暗黙の因果効果を予測し、レシピの時間的ワークフローを記述するグラフに変換する必要がある。
これは常識的な推論を伴う非自明なタスクです。
しかし、既存の取り組みは、大規模なラベル付きデータセットがないため、レシピからワークフローグラフを抽出するための手作りの機能に依存している。
また、料理のレシピの重要な部分である料理イメージの活用にも失敗している。
本稿では,人ラベルワークフローグラフを用いた9,850のレシピからなる,ワークフロー構築のための最初の大規模データセットmm-resを構築した。
調理手順はマルチモーダルで、テキスト指示と調理画像の両方を特徴とする。
次に、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案し、既存の手作りベースラインよりも20%以上の性能向上を実現した。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Recipe2Vec: Multi-modal Recipe Representation Learning with Graph Neural
Networks [23.378813327724686]
マルチモーダルなレシピ表現学習の問題を形式化し、視覚的、テキスト的、リレーショナルな情報をレシピの埋め込みに統合する。
まず、50万以上のノードを持つ新しいレシピグラフデータであるLarge-RGを紹介した。
次に、新しいグラフニューラルネットワークに基づくレシピ埋め込みモデルであるRecipe2Vecを提案し、マルチモーダル情報をキャプチャする。
論文 参考訳(メタデータ) (2022-05-24T23:04:02Z) - Learning Program Representations for Food Images and Cooking Recipes [26.054436410924737]
料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
モデルは、自己監督を通じてレシピと食品画像の結合埋め込みを学ぶために訓練される。
プログラムへのイメージ・レシピの埋め込みを投影すると、モーダル横断検索結果がより良くなることを示す。
論文 参考訳(メタデータ) (2022-03-30T05:52:41Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。