論文の概要: Predefined domain specific embeddings of food concepts and recipes: A
case study on heterogeneous recipe datasets
- arxiv url: http://arxiv.org/abs/2302.01005v1
- Date: Thu, 2 Feb 2023 10:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 14:19:46.790457
- Title: Predefined domain specific embeddings of food concepts and recipes: A
case study on heterogeneous recipe datasets
- Title(参考訳): 食品概念とレシピの事前定義されたドメイン特化埋め込み:不均質なレシピデータセットを事例として
- Authors: Gordana Ispirova, Tome Eftimov, and Barbara Korou\v{s}i\'c Seljak
- Abstract要約: レシピデータセットは通常、ユーザーがレシピを投稿して公開するソーシャルメディアウェブサイトから収集される。
6つの異なるレシピデータセットを公開し、異なるフォーマットで収集します。
栄養予測のために機械学習(ML)パイプラインを適用するために必要なフォーマットにこれらのデータセットをすべて導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recipe data are very easy to come by nowadays, it is really hard to
find a complete recipe dataset - with a list of ingredients, nutrient values
per ingredient, and per recipe, allergens, etc. Recipe datasets are usually
collected from social media websites where users post and publish recipes.
Usually written with little to no structure, using both standardized and
non-standardized units of measurement. We collect six different recipe
datasets, publicly available, in different formats, and some including data in
different languages. Bringing all of these datasets to the needed format for
applying a machine learning (ML) pipeline for nutrient prediction [1], [2],
includes data normalization using dictionary-based named entity recognition
(NER), rule-based NER, as well as conversions using external domain-specific
resources. From the list of ingredients, domain-specific embeddings are created
using the same embedding space for all recipes - one ingredient dataset is
generated. The result from this normalization process is two corpora - one with
predefined ingredient embeddings and one with predefined recipe embeddings. On
all six recipe datasets, the ML pipeline is evaluated. The results from this
use case also confirm that the embeddings merged using the domain heuristic
yield better results than the baselines.
- Abstract(参考訳): レシピデータは非常に簡単に手に入るが、食材、食材ごとの栄養価、レシピごとのアレルゲンなど、完全なレシピデータセットを見つけることは極めて困難である。
レシピデータセットは通常、ユーザーがレシピを投稿して公開するソーシャルメディアウェブサイトから収集される。
通常、標準単位と非標準単位の両方を用いて、ほとんどあるいは全く構造を持たない形で書かれる。
6つの異なるレシピデータセットを公開し、異なるフォーマットで収集します。
これらのデータセットをすべて、栄養予測のために機械学習(ML)パイプラインを適用するために必要なフォーマットに組み込むこと [1],[2]は、辞書ベースの名前付きエンティティ認識(NER)、ルールベースのNER、および外部ドメイン固有のリソースを使用した変換を含む。
要素のリストから、すべてのレシピに対して同じ埋め込み空間を使って、ドメイン固有の埋め込みが作成されます。
この正規化プロセスの結果は2つのコーパス、ひとつは予め定義された成分の埋め込み、もう一つは事前に定義されたレシピの埋め込みである。
6つのレシピデータセットすべてで、MLパイプラインが評価される。
このユースケースの結果は、ドメインヒューリスティックでマージされた埋め込みがベースラインよりも良い結果をもたらすことも確認しています。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Deep Learning Based Named Entity Recognition Models for Recipes [7.507956305171027]
名前付きエンティティ認識(NER)は、構造化されていない、または半構造化されていないデータから既知のラベルで情報を抽出する技術である。
私たちは26,445のフレーズを累積してデータセットを作成しました。
金本位レシピデータレポジトリRecipeDBの成分句を分析し,Stanford NERを用いて注釈した。
深層学習に基づく言語モデルの統計的、微調整を含むこれらのデータセットに対するNERアプローチの徹底的な調査は、深い洞察を与える。
論文 参考訳(メタデータ) (2024-02-27T12:03:56Z) - Towards Automated Recipe Genre Classification using Semi-Supervised
Learning [4.177122099296939]
Assorted, Archetypal, and Annotated 200 Million Extended (3A2M+ Cooking Recipe dataset")というデータセットを提示する。
このデータには、タイトル、NER、方向、拡張NERなどの様々な特徴と、パン屋、飲み物、非野菜、野菜、ファーストフード、穀物、食事、側面、融合などのジャンルを表す9つの異なるラベルが含まれている。
従来の機械学習、ディープラーニング、事前訓練された言語モデルを用いてレシピをそれぞれのジャンルに分類し、全体的な精度は98.6%に達した。
論文 参考訳(メタデータ) (2023-10-24T10:03:27Z) - Assorted, Archetypal and Annotated Two Million (3A2M) Cooking Recipes
Dataset based on Active Learning [2.40907745415345]
それぞれのカテゴリにラベル付けされた200万の料理レシピのデータセットを新たに提示する。
データセットを構築するために、レシピをRecipeNLGデータセットから収集する。
私たちのデータセットには200万以上のレシピがあり、それぞれが分類され、信頼性スコアが関連付けられています。
論文 参考訳(メタデータ) (2023-03-27T07:53:18Z) - Counterfactual Recipe Generation: Exploring Compositional Generalization
in a Realistic Scenario [60.20197771545983]
本研究では,材料の変化に応じて基本レシピを変更するようモデルに依頼する,反現実的なレシピ生成タスクを設計する。
料理の知識を学習するモデルのために、中国語で大規模なレシピデータセットを収集する。
その結果、既存のモデルでは原文のスタイルを保ちながら素材の変更が困難であり、調整が必要なアクションを見逃すことがしばしばあった。
論文 参考訳(メタデータ) (2022-10-20T17:21:46Z) - Cross-lingual Adaptation for Recipe Retrieval with Mixup [56.79360103639741]
近年,大規模なペアリングデータの提供により,クロスモーダルなレシピ検索が研究の注目を集めている。
本稿では,ソース領域とターゲット領域のレシピが異なる言語で作成される画像からレシピ検索のための教師なし領域適応について検討する。
2つの領域間の移動可能な埋め込み特徴を学習するために,新しいレシピ・ミックスアップ法を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:04:39Z) - Assistive Recipe Editing through Critiquing [34.1050269670062]
RecipeCritは階層的な自動エンコーダで、材料レベルの批判をレシピで編集する。
私たちの研究の主な革新は、ユーザーが予測された材料と対話することでレシピを編集できる教師なしのクオリティリングモジュールです。
論文 参考訳(メタデータ) (2022-05-05T05:52:27Z) - Structure-Aware Generation Network for Recipe Generation from Images [142.047662926209]
食品画像と材料のみに基づいて調理指導を行うオープン・リサーチ・タスクについて検討する。
ターゲットレシピは長い段落であり、構造情報に関する注釈を持たない。
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
論文 参考訳(メタデータ) (2020-09-02T10:54:25Z) - Decomposing Generation Networks with Structure Prediction for Recipe
Generation [142.047662926209]
本稿では,構造予測を伴うDGN(Decomposing Generation Networks)を提案する。
具体的には,調理指導を複数のフェーズに分割し,各フェーズに異なるサブジェネレータを割り当てる。
提案手法は, (i) 大域的構造予測成分を用いてレシピ構造を学習し, (ii) 予測された構造に基づいてサブジェネレータ出力成分でレシピ相を生成するという2つの新しいアイデアを含む。
論文 参考訳(メタデータ) (2020-07-27T08:47:50Z) - A Recipe for Creating Multimodal Aligned Datasets for Sequential Tasks [48.39191088844315]
調理領域では、ウェブは、同じ料理を作る方法を記述したテキストとビデオのレシピを多数提供している。
我々は、同じ料理の異なるレシピの指示間のペアワイズアライメントを学習する教師なしアライメントアルゴリズムを使用する。
次に、グラフアルゴリズムを用いて、同じ料理のための複数のテキストと複数のビデオレシピの協調的なアライメントを導出する。
論文 参考訳(メタデータ) (2020-05-19T17:27:00Z) - A Named Entity Based Approach to Model Recipes [9.18959130745234]
本稿では,この一様構造におけるレシピの最良の表現を推論するパイプラインだけでなく,レシピを正確に表現できる構造を提案する。
レシピのingredientsセクションは通常、必要な材料と、量、温度、処理状態などの対応する属性をリストアップする。
指示部は、これらの器具や具材に調理技術や工程を適用する一連の事象を列挙する。
論文 参考訳(メタデータ) (2020-04-25T16:37:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。