論文の概要: RecipeSnap -- a lightweight image-to-recipe model
- arxiv url: http://arxiv.org/abs/2205.02141v1
- Date: Wed, 4 May 2022 15:49:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-05 16:39:04.680696
- Title: RecipeSnap -- a lightweight image-to-recipe model
- Title(参考訳): RecipeSnap - 軽量イメージ・ツー・レシピモデル
- Authors: Jianfa Chen, Yue Yin, Yifan Xu
- Abstract要約: We introduced a lightweight image-to-recipe prediction model, RecipeSnap, which is reduce memory cost and compute cost by 90% more to achieve 2.0 MedR。
Recipe1Mデータセットからのレシピとそれに対応するレシピの埋め込みはレシピライブラリとして収集される。
このモデルは、いくつかの努力で、スマートフォン用のアプリケーションにさらに発展させることができる。
- 参考スコア(独自算出の注目度): 4.776653798337577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we want to address the problem of automation for recognition of
photographed cooking dishes and generating the corresponding food recipes.
Current image-to-recipe models are computation expensive and require powerful
GPUs for model training and implementation. High computational cost prevents
those existing models from being deployed on portable devices, like smart
phones. To solve this issue we introduce a lightweight image-to-recipe
prediction model, RecipeSnap, that reduces memory cost and computational cost
by more than 90% while still achieving 2.0 MedR, which is in line with the
state-of-the-art model. A pre-trained recipe encoder was used to compute recipe
embeddings. Recipes from Recipe1M dataset and corresponding recipe embeddings
are collected as a recipe library, which are used for image encoder training
and image query later. We use MobileNet-V2 as image encoder backbone, which
makes our model suitable to portable devices. This model can be further
developed into an application for smart phones with a few effort. A comparison
of the performance between this lightweight model to other heavy models are
presented in this paper. Code, data and models are publicly accessible on
github.
- Abstract(参考訳): 本稿では,撮影された料理の認識と対応する料理レシピ生成のための自動化の問題に対処したい。
現在の画像合成モデルは計算コストが高く、モデルトレーニングと実装に強力なGPUを必要とする。
高い計算コストは、これらの既存のモデルを携帯電話のような携帯機器にデプロイすることを妨げる。
この問題を解決するために、我々は、メモリコストと計算コストを90%以上削減する軽量な画像合成予測モデルRecipeSnapを導入し、最新技術モデルである2.0 MedRを実現した。
レシピエンコーダは、レシピエンベッドの計算に使用されていた。
recipe1mデータセットと対応するレシピ埋め込みからのレシピをレシピライブラリとして収集し、イメージエンコーダのトレーニングと画像クエリに後で使用する。
私たちはMobileNet-V2をイメージエンコーダのバックボーンとして使用しています。
このモデルは、ほんの少しの労力で、スマートフォンのアプリケーションとして開発することができる。
本稿では,この軽量モデルと他の重モデルとの比較を行った。
コード、データ、モデルはgithubで公開されている。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - How Many Van Goghs Does It Take to Van Gogh? Finding the Imitation Threshold [50.33428591760124]
学習データセットにおける概念の頻度とモデルを模倣する能力の関係について検討する。
我々は,複数のモデルをスクラッチからトレーニングする余剰コストを発生させることなく,模倣閾値を推定する効率的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-19T06:28:14Z) - Machine Unlearning for Image-to-Image Generative Models [18.952634119351465]
本稿では、画像から画像への生成モデルのための機械学習のための統一フレームワークを提供する。
本稿では,厳密な理論解析を基盤とした計算効率のよいアルゴリズムを提案する。
ImageNet-1KとPlaces-365の2つの大規模データセットに関する実証研究は、我々のアルゴリズムが保持サンプルの可用性に依存していないことを示している。
論文 参考訳(メタデータ) (2024-02-01T05:35:25Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - DINOv2: Learning Robust Visual Features without Supervision [75.42921276202522]
この研究は、既存の事前学習手法、特に自己教師付き手法が、多様なソースから十分なキュレートされたデータで訓練すれば、そのような特徴を生み出すことができることを示している。
技術的な貢献の多くは、大規模なトレーニングを加速し、安定化することを目的としています。
データの観点からは、自己組織化されていないデータではなく、専用で多様でキュレートされた画像データセットを構築するための自動パイプラインを提案する。
論文 参考訳(メタデータ) (2023-04-14T15:12:19Z) - The Multimodal And Modular Ai Chef: Complex Recipe Generation From
Imagery [0.0]
本稿では、モノリシックなアプローチと、画像モデルを用いてオブジェクトをラベル付けする軽量で特殊な手法を比較する。
モジュール型の代替手段としてAPIを実証するため,冷凍機で利用可能な材料をユーザが写真を撮って,複雑な制約に合わせた新しいレシピカードを生成するという課題を解決した。
初めて、AIのシェフや料理人は、できるだけでなく、人間のレシピライブラリを実用的に拡張する能力も提供する。
論文 参考訳(メタデータ) (2023-03-20T01:57:52Z) - RecipeRec: A Heterogeneous Graph Learning Model for Recipe
Recommendation [26.84274830886026]
我々は,レシピレコメンデーションに協調的なシグナルを組み込むために,グラフを用いてレシピレコメンデーションの問題を定式化する。
最初に、リレーショナルグラフ(Relational-Graph)を提示する。
次にレシピ推薦のための新しい異種グラフ学習モデルであるRecipeRecを提案する。
論文 参考訳(メタデータ) (2022-05-24T22:19:53Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。