論文の概要: Structure-Aware Generation Network for Recipe Generation from Images
- arxiv url: http://arxiv.org/abs/2009.00944v1
- Date: Wed, 2 Sep 2020 10:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-22 19:18:52.984619
- Title: Structure-Aware Generation Network for Recipe Generation from Images
- Title(参考訳): 画像からのレシピ生成のための構造認識生成ネットワーク
- Authors: Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao
- Abstract要約: 食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
- 参考スコア(独自算出の注目度): 142.047662926209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sharing food has become very popular with the development of social media.
For many real-world applications, people are keen to know the underlying
recipes of a food item. In this paper, we are interested in automatically
generating cooking instructions for food. We investigate an open research task
of generating cooking instructions based on only food images and ingredients,
which is similar to the image captioning task. However, compared with image
captioning datasets, the target recipes are long-length paragraphs and do not
have annotations on structure information. To address the above limitations, we
propose a novel framework of Structure-aware Generation Network (SGN) to tackle
the food recipe generation task. Our approach brings together several novel
ideas in a systematic framework: (1) exploiting an unsupervised learning
approach to obtain the sentence-level tree structure labels before training;
(2) generating trees of target recipes from images with the supervision of tree
structure labels learned from (1); and (3) integrating the inferred tree
structures with the recipe generation procedure. Our proposed model can produce
high-quality and coherent recipes, and achieve the state-of-the-art performance
on the benchmark Recipe1M dataset.
- Abstract(参考訳): 食品の共有はソーシャルメディアの発展に非常に人気がある。
現実世界のアプリケーションの多くは、食品の基本的なレシピを知りたがっている。
本稿では,食品の調理指導を自動生成することに関心がある。
画像キャプションタスクに類似した食品画像と具材のみに基づいて調理指示を生成するオープン研究課題について検討する。
しかし、画像キャプションデータセットと比較すると、ターゲットのレシピは長い段落であり、構造情報のアノテーションを持たない。
以上の制限に対処するため、食品レシピ生成タスクに取り組むために、構造認識ネットワーク(SGN)の新たなフレームワークを提案する。
提案手法は,(1)学習前の文レベルの木構造ラベルを得るための教師なし学習アプローチ,(2)学習した木構造ラベルを監督した画像からターゲットレシピのツリーを生成する,(3)推論された木構造とレシピ生成手順を統合する,という,新しい考え方を体系的な枠組みに取り入れたものである。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
関連論文リスト
- Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - Learning Program Representations for Food Images and Cooking Recipes [26.054436410924737]
料理のレシピや料理のイメージを料理プログラムとして表現することを提案する。
モデルは、自己監督を通じてレシピと食品画像の結合埋め込みを学ぶために訓練される。
プログラムへのイメージ・レシピの埋め込みを投影すると、モーダル横断検索結果がより良くなることを示す。
論文 参考訳(メタデータ) (2022-03-30T05:52:41Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。