Fugu-MT 論文翻訳(概要): Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace

論文の概要: Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace

arxiv url: http://arxiv.org/abs/2012.01345v2
Date: Mon, 21 Dec 2020 22:49:07 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-30 06:19:20.916416
Title: Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace
Title（参考訳）: クロスモーダル検索と合成(X-MRS):共有部分空間におけるモダリティギャップを閉鎖する
Authors: Ricardo Guerrero, Hai Xuan Pham and Vladimir Pavlovic
Abstract要約: 本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
参考スコア（独自算出の注目度）: 21.33710150033949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Computational food analysis (CFA), a broad set of methods that attempt to automate food understanding, naturally requires analysis of multi-modal evidence of a particular food or dish, e.g. images, recipe text, preparation video, nutrition labels, etc. A key to making CFA possible is multi-modal shared subspace learning, which in turn can be used for cross-modal retrieval and/or synthesis, particularly, between food images and their corresponding textual recipes. In this work we propose a simple yet novel architecture for shared subspace learning, which is used to tackle the food image-to-recipe retrieval problem. Our proposed method employs an effective transformer based multilingual recipe encoder coupled with a traditional image embedding architecture. Experimental analysis on the public Recipe1M dataset shows that the subspace learned via the proposed method outperforms the current state-of-the-arts (SoTA) in food retrieval by a large margin, obtaining recall@1 of 0.64. Furthermore, in order to demonstrate the representational power of the learned subspace, we propose a generative food image synthesis model conditioned on the embeddings of recipes. Synthesized images can effectively reproduce the visual appearance of paired samples, achieving R@1 of 0.68 in the image-to-recipe retrieval experiment, thus effectively capturing the semantics of the textual recipe.
Abstract（参考訳）: 食品の理解を自動化するための幅広い手法である計算食品分析(CFA)は、自然に特定の食品や料理のマルチモーダルな証拠の分析を必要とする。画像、レシピテキスト、準備ビデオ、栄養ラベルなど。 CFAを実現するための鍵はマルチモーダル共有部分空間学習であり、これは、特に食品画像とその対応するテキストレシピ間の相互モーダル検索および/または合成に使用できる。本研究では,食品画像からレシピへの検索問題に取り組むために使用される,共有部分空間学習のための単純かつ斬新なアーキテクチャを提案する。提案手法は,従来の画像埋め込みアーキテクチャと組み合わせた,効率的なトランスフォーマーベースの多言語レシピエンコーダを用いる。一般向けRecipe1Mデータセットの実験的分析から,提案手法を用いて学習したサブスペースは,食品検索における現状(SoTA)を大きなマージンで上回り,リコール@1の0。さらに,学習された部分空間の表現力を示すために,レシピの埋め込みを条件とした生成的食品画像合成モデルを提案する。合成画像は、ペア化されたサンプルの視覚的外観を効果的に再現することができ、画像からレシピ検索実験において0.68のR@1を達成することにより、テキストレシピのセマンティクスを効果的に取得することができる。

関連論文リスト

Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文参考訳（メタデータ） (2024-11-13T15:58:50Z)
Foodfusion: A Novel Approach for Food Image Composition via Diffusion Models [48.821150379374714]
大規模で高品質な食品画像合成データセットFC22kを導入する。本研究では,前景や背景情報を処理・統合するためのFusion Moduleを組み込んだ新しい食品画像合成手法であるFoodfusionを提案する。
論文参考訳（メタデータ） (2024-08-26T09:32:16Z)
Diffusion Model with Clustering-based Conditioning for Food Image Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文参考訳（メタデータ） (2023-09-01T01:40:39Z)
FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文参考訳（メタデータ） (2023-08-28T08:14:20Z)
Transferring Knowledge for Food Image Segmentation using Transformers and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。 1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。 2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。 BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文参考訳（メタデータ） (2023-06-15T15:38:10Z)
Learning Structural Representations for Recipe Generation and Food Retrieval [101.97397967958722]
本稿では,食品レシピ生成課題に取り組むために,構造認識ネットワーク(SGN)の新たな枠組みを提案する。提案モデルは高品質でコヒーレントなレシピを作成でき、ベンチマークRecipe1Mデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-10-04T06:36:31Z)
A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。 ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文参考訳（メタデータ） (2021-05-12T03:00:07Z)
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文参考訳（メタデータ） (2021-03-24T10:17:09Z)
CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文参考訳（メタデータ） (2021-02-04T11:24:34Z)
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文参考訳（メタデータ） (2020-03-09T07:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。