論文の概要: Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace
- arxiv url: http://arxiv.org/abs/2012.01345v2
- Date: Mon, 21 Dec 2020 22:49:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 06:19:20.916416
- Title: Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace
- Title(参考訳): クロスモーダル検索と合成(X-MRS):共有部分空間におけるモダリティギャップを閉鎖する
- Authors: Ricardo Guerrero, Hai Xuan Pham and Vladimir Pavlovic
- Abstract要約: 本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
- 参考スコア(独自算出の注目度): 21.33710150033949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational food analysis (CFA), a broad set of methods that attempt to
automate food understanding, naturally requires analysis of multi-modal
evidence of a particular food or dish, e.g. images, recipe text, preparation
video, nutrition labels, etc. A key to making CFA possible is multi-modal
shared subspace learning, which in turn can be used for cross-modal retrieval
and/or synthesis, particularly, between food images and their corresponding
textual recipes. In this work we propose a simple yet novel architecture for
shared subspace learning, which is used to tackle the food image-to-recipe
retrieval problem. Our proposed method employs an effective transformer based
multilingual recipe encoder coupled with a traditional image embedding
architecture. Experimental analysis on the public Recipe1M dataset shows that
the subspace learned via the proposed method outperforms the current
state-of-the-arts (SoTA) in food retrieval by a large margin, obtaining
recall@1 of 0.64. Furthermore, in order to demonstrate the representational
power of the learned subspace, we propose a generative food image synthesis
model conditioned on the embeddings of recipes. Synthesized images can
effectively reproduce the visual appearance of paired samples, achieving R@1 of
0.68 in the image-to-recipe retrieval experiment, thus effectively capturing
the semantics of the textual recipe.
- Abstract(参考訳): 食品の理解を自動化するための幅広い手法である計算食品分析(CFA)は、自然に特定の食品や料理のマルチモーダルな証拠の分析を必要とする。
画像、レシピテキスト、準備ビデオ、栄養ラベルなど。
CFAを実現するための鍵はマルチモーダル共有部分空間学習であり、これは、特に食品画像とその対応するテキストレシピ間の相互モーダル検索および/または合成に使用できる。
本研究では,食品画像からレシピへの検索問題に取り組むために使用される,共有部分空間学習のための単純かつ斬新なアーキテクチャを提案する。
提案手法は,従来の画像埋め込みアーキテクチャと組み合わせた,効率的なトランスフォーマーベースの多言語レシピエンコーダを用いる。
一般向けRecipe1Mデータセットの実験的分析から,提案手法を用いて学習したサブスペースは,食品検索における現状(SoTA)を大きなマージンで上回り,リコール@1の0。
さらに,学習された部分空間の表現力を示すために,レシピの埋め込みを条件とした生成的食品画像合成モデルを提案する。
合成画像は、ペア化されたサンプルの視覚的外観を効果的に再現することができ、画像からレシピ検索実験において0.68のR@1を達成することにより、テキストレシピのセマンティクスを効果的に取得することができる。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。
本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文 参考訳(メタデータ) (2024-08-26T09:32:16Z) - Diffusion Model with Clustering-based Conditioning for Food Image
Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。
潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。
本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文 参考訳(メタデータ) (2023-09-01T01:40:39Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Learning Structural Representations for Recipe Generation and Food
Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。
提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-10-04T06:36:31Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。