論文の概要: MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model
- arxiv url: http://arxiv.org/abs/2004.01095v1
- Date: Thu, 2 Apr 2020 16:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 09:37:28.078172
- Title: MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model
- Title(参考訳): MCEN:料理レシピとディッシュイメージの相互ギャップを潜在変数モデルで埋める
- Authors: Han Fu, Rui Wu, Chenghao Liu, Jianling Sun
- Abstract要約: 我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。
本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
- 参考スコア(独自算出の注目度): 28.649961369386148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, driven by the increasing concern on diet and health, food computing
has attracted enormous attention from both industry and research community. One
of the most popular research topics in this domain is Food Retrieval, due to
its profound influence on health-oriented applications. In this paper, we focus
on the task of cross-modal retrieval between food images and cooking recipes.
We present Modality-Consistent Embedding Network (MCEN) that learns
modality-invariant representations by projecting images and texts to the same
embedding space. To capture the latent alignments between modalities, we
incorporate stochastic latent variables to explicitly exploit the interactions
between textual and visual features. Importantly, our method learns the
cross-modal alignments during training but computes embeddings of different
modalities independently at inference time for the sake of efficiency.
Extensive experimental results clearly demonstrate that the proposed MCEN
outperforms all existing approaches on the benchmark Recipe1M dataset and
requires less computational cost.
- Abstract(参考訳): 近年、食生活と健康への懸念が高まり、食品コンピューティングは産業と研究コミュニティの両方から大きな注目を集めている。
この領域で最も人気のある研究トピックの1つは、健康指向の応用に大きな影響があるため、食品検索である。
本稿では,食品画像と調理レシピのクロスモーダル検索の課題に注目した。
画像とテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学ぶモダリティ整合埋め込みネットワーク(mcen)を提案する。
モーダリティ間の潜在的なアライメントを捉えるために、確率的潜在変数を組み込んで、テキスト的特徴と視覚的特徴の相互作用を明示的に活用する。
重要なこととして,本手法はトレーニング中のモード間のアライメントを学習するが,効率的な推論時間において異なるモーダルの埋め込みを独立に計算する。
MCENはベンチマークのRecipe1Mデータセットにおいて既存のアプローチよりも優れており、計算コストの低減を図っている。
関連論文リスト
- RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Learning Relation Alignment for Calibrated Cross-modal Retrieval [52.760541762871505]
言語的・視覚的関係のセマンティックな距離を計測し,関係の一貫性を定量化するための新しい指標ISD(Intra-modal Self-attention Distance)を提案する。
ISDを最適化し、モダル間アライメントを介してモダル内アライメントを相互に調整するための正規化訓練法である、モダル内アライメント(IAIS)について述べる。
論文 参考訳(メタデータ) (2021-05-28T14:25:49Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。