論文の概要: Learning Structural Representations for Recipe Generation and Food
Retrieval
- arxiv url: http://arxiv.org/abs/2110.01209v1
- Date: Mon, 4 Oct 2021 06:36:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:31:49.493327
- Title: Learning Structural Representations for Recipe Generation and Food
Retrieval
- Title(参考訳): レシピ生成と食品検索のための構造表現の学習
- Authors: Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao
- Abstract要約: 本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 101.97397967958722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food is significant to human daily life. In this paper, we are interested in
learning structural representations for lengthy recipes, that can benefit the
recipe generation and food retrieval tasks. We mainly investigate an open
research task of generating cooking instructions based on food images and
ingredients, which is similar to the image captioning task. However, compared
with image captioning datasets, the target recipes are lengthy paragraphs and
do not have annotations on structure information. To address the above
limitations, we propose a novel framework of Structure-aware Generation Network
(SGN) to tackle the food recipe generation task. Our approach brings together
several novel ideas in a systematic framework: (1) exploiting an unsupervised
learning approach to obtain the sentence-level tree structure labels before
training; (2) generating trees of target recipes from images with the
supervision of tree structure labels learned from (1); and (3) integrating the
inferred tree structures into the recipe generation procedure. Our proposed
model can produce high-quality and coherent recipes, and achieve the
state-of-the-art performance on the benchmark Recipe1M dataset. We also
validate the usefulness of our learned tree structures in the food cross-modal
retrieval task, where the proposed model with tree representations can
outperform state-of-the-art benchmark results.
- Abstract(参考訳): 食物は人間の日常生活にとって重要である。
本稿では,レシピ生成と食品検索タスクに資する長めのレシピの構造表現を学ぶことに関心を寄せる。
画像キャプションタスクに類似した食品画像や食材に基づいて調理指示を生成するオープン研究課題を主に検討した。
しかし、画像キャプションデータセットと比較すると、ターゲットのレシピは長い段落であり、構造情報のアノテーションを持たない。
以上の制限に対処するため、食品レシピ生成タスクに取り組むために、構造認識ネットワーク(SGN)の新たなフレームワークを提案する。
提案手法は,(1)学習前の文レベルの木構造ラベルを得るための教師なし学習アプローチ,(2)学習前の木構造ラベルを監督した画像からターゲットレシピのツリーを生成する,(3)推論された木構造をレシピ生成手順に統合する,という,新しい考え方を体系的な枠組みで取り入れたものである。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
また,本研究の食品間モーダル検索作業における学習木構造の有用性を検証した。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Recipe2Vec: Multi-modal Recipe Representation Learning with Graph Neural
Networks [23.378813327724686]
マルチモーダルなレシピ表現学習の問題を形式化し、視覚的、テキスト的、リレーショナルな情報をレシピの埋め込みに統合する。
まず、50万以上のノードを持つ新しいレシピグラフデータであるLarge-RGを紹介した。
次に、新しいグラフニューラルネットワークに基づくレシピ埋め込みモデルであるRecipe2Vecを提案し、マルチモーダル情報をキャプチャする。
論文 参考訳(メタデータ) (2022-05-24T23:04:02Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。