論文の概要: Learning TFIDF Enhanced Joint Embedding for Recipe-Image Cross-Modal
Retrieval Service
- arxiv url: http://arxiv.org/abs/2108.00724v1
- Date: Mon, 2 Aug 2021 08:49:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:05:36.593608
- Title: Learning TFIDF Enhanced Joint Embedding for Recipe-Image Cross-Modal
Retrieval Service
- Title(参考訳): レシピ画像クロスモーダル検索サービスのためのtfidf強化ジョイント埋め込み学習
- Authors: Zhongwei Xie, Ling Liu, Yanzhao Wu, Lin Li, Luo Zhong
- Abstract要約: 両モード間の共通特徴空間(テキストと画像)を学習するための多モードセマンティックス強化共同埋め込み手法(MSJE)を提案する。
まず、レシピのタイトル、材料、調理指導からTFIDFの特徴を抽出する。
第2に、レシピTFIDF機能と、2段階のLSTMネットワークから抽出されたレシピシーケンス機能を組み合わせることで、レシピとその関連画像のユニークな関係を捉えるのに有効である。
第3に、画像モダリティのマッピングを改善し、規制するために、TFIDF強化カテゴリセマンティクスを組み込んだ。
- 参考スコア(独自算出の注目度): 13.321319187357844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is widely acknowledged that learning joint embeddings of recipes with
images is challenging due to the diverse composition and deformation of
ingredients in cooking procedures. We present a Multi-modal Semantics enhanced
Joint Embedding approach (MSJE) for learning a common feature space between the
two modalities (text and image), with the ultimate goal of providing
high-performance cross-modal retrieval services. Our MSJE approach has three
unique features. First, we extract the TFIDF feature from the title,
ingredients and cooking instructions of recipes. By determining the
significance of word sequences through combining LSTM learned features with
their TFIDF features, we encode a recipe into a TFIDF weighted vector for
capturing significant key terms and how such key terms are used in the
corresponding cooking instructions. Second, we combine the recipe TFIDF feature
with the recipe sequence feature extracted through two-stage LSTM networks,
which is effective in capturing the unique relationship between a recipe and
its associated image(s). Third, we further incorporate TFIDF enhanced category
semantics to improve the mapping of image modality and to regulate the
similarity loss function during the iterative learning of cross-modal joint
embedding. Experiments on the benchmark dataset Recipe1M show the proposed
approach outperforms the state-of-the-art approaches.
- Abstract(参考訳): 調理工程における材料組成や変形の多様さから, レシピと画像の融合埋め込みの学習は困難であることが広く認識されている。
本稿では,2つのモード間の共通特徴空間(テキストと画像)を学習するためのマルチモーダル・セマンティックス強化共同埋め込み(MSJE)手法を提案する。
msjeのアプローチには3つのユニークな特徴があります。
まず,レシピの題名,具材,調理指導からtfidfの特徴を抽出する。
LSTM学習特徴とTFIDF特徴を組み合わせて単語列の重要度を決定することにより、重要なキーワードを抽出するためのTFIDF重み付きベクトルにレシピをエンコードし、それに対応する調理指示にそのキーワードがどのように使われるかを示す。
第2に、レシピTFIDF機能と、2段階のLSTMネットワークから抽出されたレシピシーケンス機能を組み合わせることで、レシピとその関連画像のユニークな関係を捉えるのに有効である。
第3に,tfidf強化カテゴリセマンティクスを組み込んで画像モダリティのマッピングを改善し,クロスモーダル関節埋め込みの反復学習中に類似度損失関数を制御する。
ベンチマークデータセットRecipe1Mの実験では、提案されたアプローチは最先端のアプローチよりも優れていた。
関連論文リスト
- Meta-Exploiting Frequency Prior for Cross-Domain Few-Shot Learning [86.99944014645322]
クロスドメインなFew-Shot学習のための新しいフレームワーク,Meta-Exploiting Frequency Priorを導入する。
各クエリ画像を高周波および低周波成分に分解し,特徴埋め込みネットワークに並列に組み込む。
本フレームワークは、複数のドメイン間数ショット学習ベンチマークにおいて、最先端の新たな結果を確立する。
論文 参考訳(メタデータ) (2024-11-03T04:02:35Z) - A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
マルチモダリティ画像融合は、2つのソース画像から特定のモダリティ情報と共有モダリティ情報を融合することを目的としている。
本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。
可視・近赤外画像融合および医用画像融合タスクにおける最先端手法と比較して,本手法は競争力のある結果を得た。
論文 参考訳(メタデータ) (2024-06-11T09:32:40Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z) - Learning Text-Image Joint Embedding for Efficient Cross-Modal Retrieval
with Deep Feature Engineering [13.321319187357844]
本稿では,セマンティクスの強化された関節埋め込みを効率的に学習するための2段階の深層機能工学フレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生した意味的コンテキスト特徴と深い特徴工学を組み合わせることで、深い特徴工学を行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数を最適化することにより,深い特徴工学を行う。
論文 参考訳(メタデータ) (2021-10-22T05:18:28Z) - Learning Joint Embedding with Modality Alignments for Cross-Modal
Retrieval of Recipes and Food Images [14.070841236184439]
本稿では,テキストイメージの関節埋め込みを学習するための3段階のモダリティアライメント手法を提案する。
提案手法は,イメージ・ツー・レシピ検索とレシピ・ツー・イメージ検索の両方において,最先端のクロスモーダル・埋め込み法より優れている。
論文 参考訳(メタデータ) (2021-08-09T03:11:54Z) - Cross-modal Image Retrieval with Deep Mutual Information Maximization [14.778158582349137]
本研究では,入力にソース画像を含むクロスモーダル画像検索と,その画像と所望の画像の修正を記述したテキストについて検討する。
本手法は, テキストモダリティと画像モダリティのモダリティギャップを狭め, 意味的には同一でない表現間の相互情報を最大化する。
論文 参考訳(メタデータ) (2021-03-10T13:08:09Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z) - Cross-modality Person re-identification with Shared-Specific Feature
Transfer [112.60513494602337]
クロスモダリティの人物再識別(cm-ReID)は、インテリジェントビデオ分析において難しいが重要な技術である。
モーダリティ共有型特徴伝達アルゴリズム (cm-SSFT) を提案し, モーダリティ共有型情報とモーダリティ固有特性の両方のポテンシャルについて検討する。
論文 参考訳(メタデータ) (2020-02-28T00:18:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。