論文の概要: The Multimodal And Modular Ai Chef: Complex Recipe Generation From
Imagery
- arxiv url: http://arxiv.org/abs/2304.02016v1
- Date: Mon, 20 Mar 2023 01:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-09 05:37:34.775296
- Title: The Multimodal And Modular Ai Chef: Complex Recipe Generation From
Imagery
- Title(参考訳): マルチモーダルでモジュラーなaiシェフ:画像からの複雑なレシピ生成
- Authors: David Noever and Samantha Elizabeth Miller Noever
- Abstract要約: 本稿では、モノリシックなアプローチと、画像モデルを用いてオブジェクトをラベル付けする軽量で特殊な手法を比較する。
モジュール型の代替手段としてAPIを実証するため,冷凍機で利用可能な材料をユーザが写真を撮って,複雑な制約に合わせた新しいレシピカードを生成するという課題を解決した。
初めて、AIのシェフや料理人は、できるだけでなく、人間のレシピライブラリを実用的に拡張する能力も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The AI community has embraced multi-sensory or multi-modal approaches to
advance this generation of AI models to resemble expected intelligent
understanding. Combining language and imagery represents a familiar method for
specific tasks like image captioning or generation from descriptions. This
paper compares these monolithic approaches to a lightweight and specialized
method based on employing image models to label objects, then serially
submitting this resulting object list to a large language model (LLM). This use
of multiple Application Programming Interfaces (APIs) enables better than 95%
mean average precision for correct object lists, which serve as input to the
latest Open AI text generator (GPT-4). To demonstrate the API as a modular
alternative, we solve the problem of a user taking a picture of ingredients
available in a refrigerator, then generating novel recipe cards tailored to
complex constraints on cost, preparation time, dietary restrictions, portion
sizes, and multiple meal plans. The research concludes that monolithic
multimodal models currently lack the coherent memory to maintain context and
format for this task and that until recently, the language models like GPT-2/3
struggled to format similar problems without degenerating into repetitive or
non-sensical combinations of ingredients. For the first time, an AI chef or
cook seems not only possible but offers some enhanced capabilities to augment
human recipe libraries in pragmatic ways. The work generates a 100-page recipe
book featuring the thirty top ingredients using over 2000 refrigerator images
as initializing lists.
- Abstract(参考訳): AIコミュニティは、予想されるインテリジェントな理解に類似するように、この世代のAIモデルを前進させるために、マルチセンサーまたはマルチモーダルアプローチを採用してきた。
言語と画像の組み合わせは、画像キャプションや記述からの生成といった特定のタスクに慣れ親しんだ方法である。
本稿では、これらのモノリシックなアプローチを、画像モデルを用いてオブジェクトをラベル付けし、その結果のオブジェクトリストを大言語モデル(LLM)にシリアルに送信する、軽量で特殊な方法と比較する。
複数のアプリケーションプログラミングインタフェース(api)を使用することで、正しいオブジェクトリストに対する95%平均精度が向上し、最新のopen ai text generator (gpt-4) への入力となる。
モジュール型の代替手段としてAPIを実証するため,冷凍機で利用可能な成分の写真を撮って,コスト,準備時間,食事制限,部分サイズ,複数の食事計画に関する複雑な制約に合わせた新しいレシピカードを生成するという課題を解決した。
この研究は、現在モノリシックなマルチモーダルモデルは、このタスクのコンテキストとフォーマットを維持するためのコヒーレントなメモリを欠いていると結論付け、近年まで、GPT-2/3のような言語モデルは、成分の反復的または非感覚的な組み合わせに分解することなく、同様の問題をフォーマットすることに苦労していた。
初めて、AIシェフや料理人は、可能なだけでなく、人間のレシピライブラリを実用的に拡張する能力も提供する。
本書は,2000枚以上の冷凍庫イメージを初期化リストとして使用し,上位30項目からなる100ページのレシピブックを生成する。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - ChefFusion: Multimodal Foundation Model Integrating Recipe and Food Image Generation [19.704975821172315]
我々は,真のマルチモーダル性を実現する新しい食品コンピューティング基盤モデルを導入する。
大規模言語モデル(LLM)と事前訓練された画像エンコーダおよびデコーダモデルを活用することで、我々のモデルはさまざまな食品コンピューティング関連のタスクを実行することができる。
論文 参考訳(メタデータ) (2024-09-18T14:24:29Z) - Multi-Modal Generative Embedding Model [34.34876575183736]
本稿では,MM-GEM(Multi-Modal Generative Embedding Model)を提案する。
例えば、ViT-LargeとTinyLlamaからインスタンス化されたMM-GEMは、マルチモーダル埋め込みモデルのベンチマーク上での競合性能を示している。
MM-GEMの高度なテキストモデルは、長いテキストと画像検索のためのRecall@1を5%以上改善する。
論文 参考訳(メタデータ) (2024-05-29T17:59:10Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - Multimodal Knowledge Alignment with Reinforcement Learning [103.68816413817372]
ESPERは言語のみのゼロショットモデルを拡張して、画像や音声のキャプションといったマルチモーダルタスクを未確認にする。
我々の重要な新規性は、強化学習を使用することで、直接監督することなく、多モーダル入力を言語モデル世代に整列させることである。
実験の結果、ESPERはベースラインと様々なゼロショットタスクの事前作業より優れていることが示された。
論文 参考訳(メタデータ) (2022-05-25T10:12:17Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - RecipeSnap -- a lightweight image-to-recipe model [4.776653798337577]
We introduced a lightweight image-to-recipe prediction model, RecipeSnap, which is reduce memory cost and compute cost by 90% more to achieve 2.0 MedR。
Recipe1Mデータセットからのレシピとそれに対応するレシピの埋め込みはレシピライブラリとして収集される。
このモデルは、いくつかの努力で、スマートフォン用のアプリケーションにさらに発展させることができる。
論文 参考訳(メタデータ) (2022-05-04T15:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。