論文の概要: MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval
- arxiv url: http://arxiv.org/abs/2305.11327v1
- Date: Thu, 18 May 2023 22:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 17:12:32.483970
- Title: MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval
- Title(参考訳): MALM: マスク強化による食品レシピ検索のための局所マッチング
- Authors: Bhanu Prakash Voutharoja and Peng Wang and Lei Wang and Vivienne Guan
- Abstract要約: 本稿では,マスク拡張型局所マッチングネットワーク(MALM)を提案する。
Recipe1Mデータセットによる実験結果から,本手法は最先端(SOTA)手法より明らかに優れていることが示された。
- 参考スコア(独自算出の注目度): 6.582204441933583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-recipe retrieval is a challenging vision-to-language task of
significant practical value. The main challenge of the task lies in the
ultra-high redundancy in the long recipe and the large variation reflected in
both food item combination and food item appearance. A de-facto idea to address
this task is to learn a shared feature embedding space in which a food image is
aligned better to its paired recipe than other recipes. However, such
supervised global matching is prone to supervision collapse, i.e., only partial
information that is necessary for distinguishing training pairs can be
identified, while other information that is potentially useful in
generalization could be lost. To mitigate such a problem, we propose a
mask-augmentation-based local matching network (MALM), where an image-text
matching module and a masked self-distillation module benefit each other
mutually to learn generalizable cross-modality representations. On one hand, we
perform local matching between the tokenized representations of image and text
to locate fine-grained cross-modality correspondence explicitly. We involve
representations of masked image patches in this process to alleviate
overfitting resulting from local matching especially when some food items are
underrepresented. On the other hand, predicting the hidden representations of
the masked patches through self-distillation helps to learn general-purpose
image representations that are expected to generalize better. And the
multi-task nature of the model enables the representations of masked patches to
be text-aware and thus facilitates the lost information reconstruction.
Experimental results on Recipe1M dataset show our method can clearly outperform
state-of-the-art (SOTA) methods. Our code will be available at
https://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie val
- Abstract(参考訳): 画像からレシピへの検索は、重要な実用価値を持つ視覚から言語への課題である。
このタスクの主な課題は、長いレシピにおける超高冗長性と、食品の組み合わせと食品の外観の両方に反映される大きなバリエーションにある。
この課題に対処するデファクトのアイデアは、食品イメージが他のレシピよりもペアのレシピに合致する共有機能埋め込みスペースを学ぶことである。
しかし、そのような教師付きグローバルマッチングは監督の崩壊を招きやすい、すなわち、トレーニングペアを識別するのに必要な部分的な情報のみを識別できる一方、一般化において潜在的に有用な他の情報は失われる可能性がある。
そこで,本稿では,画像テキストマッチングモジュールとマスキング自己蒸留モジュールが相互に利益を享受し,一般化可能なクロスモダリティ表現を学習する仮面提示型局所マッチングネットワーク(malm)を提案する。
一方,画像とテキストのトークン化された表現間の局所マッチングを行い,きめ細かなクロスモダリティ対応を明示的に見つける。
このプロセスでは,特に食品が不足している場合の局所的マッチングによる過度な適合を軽減するために,マスク画像パッチの表現が関与する。
一方, マスク付きパッチの隠蔽表現を自己蒸留で予測することは, より汎用的な画像表現の学習に役立つ。
そして、このモデルのマルチタスク性により、マスクされたパッチの表現をテキスト認識することができ、情報の再構成が容易になる。
Recipe1Mデータセットによる実験結果から,本手法は最先端(SOTA)手法よりも優れていることが示された。
私たちのコードはhttps://github.com/MyFoodChoice/MALM_Mask_Augmentation_based_Local_Matching-_for-_Food_Recipe_Retrie valで利用可能になります。
関連論文リスト
- MaskInversion: Localized Embeddings via Optimization of Explainability Maps [49.50785637749757]
MaskInversionは、テスト時にマスクによって指定されたクエリ画像領域に対するコンテキスト認識の埋め込みを生成する。
オープン語彙のクラス検索、表現理解の参照、局所的なキャプションや画像生成など、幅広いタスクに使用することができる。
論文 参考訳(メタデータ) (2024-07-29T14:21:07Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Improving fine-grained understanding in image-text pre-training [37.163228122323865]
SPARse Fine-fine Contrastive Alignment (SPARC) は、画像とテキストのペアからよりきめ細かなマルチモーダル表現を事前学習する簡単な方法である。
粗い情報に依存した画像レベルのタスクに対して、競合するアプローチよりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-18T10:28:45Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。