論文の概要: Learning Joint Embedding with Modality Alignments for Cross-Modal
Retrieval of Recipes and Food Images
- arxiv url: http://arxiv.org/abs/2108.03788v1
- Date: Mon, 9 Aug 2021 03:11:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-10 15:08:31.277545
- Title: Learning Joint Embedding with Modality Alignments for Cross-Modal
Retrieval of Recipes and Food Images
- Title(参考訳): レシピと食品画像のクロスモーダル検索のためのモダリティアライメントを用いた学習ジョイント埋め込み
- Authors: Zhongwei Xie, Ling Liu, Lin Li, Luo Zhong
- Abstract要約: 本稿では,テキストイメージの関節埋め込みを学習するための3段階のモダリティアライメント手法を提案する。
提案手法は,イメージ・ツー・レシピ検索とレシピ・ツー・イメージ検索の両方において,最先端のクロスモーダル・埋め込み法より優れている。
- 参考スコア(独自算出の注目度): 14.070841236184439
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a three-tier modality alignment approach to learning
text-image joint embedding, coined as JEMA, for cross-modal retrieval of
cooking recipes and food images. The first tier improves recipe text embedding
by optimizing the LSTM networks with term extraction and ranking enhanced
sequence patterns, and optimizes the image embedding by combining the
ResNeXt-101 image encoder with the category embedding using wideResNet-50 with
word2vec. The second tier modality alignment optimizes the textual-visual joint
embedding loss function using a double batch-hard triplet loss with soft-margin
optimization. The third modality alignment incorporates two types of
cross-modality alignments as the auxiliary loss regularizations to further
reduce the alignment errors in the joint learning of the two modality-specific
embedding functions. The category-based cross-modal alignment aims to align the
image category with the recipe category as a loss regularization to the joint
embedding. The cross-modal discriminator-based alignment aims to add the
visual-textual embedding distribution alignment to further regularize the joint
embedding loss. Extensive experiments with the one-million recipes benchmark
dataset Recipe1M demonstrate that the proposed JEMA approach outperforms the
state-of-the-art cross-modal embedding methods for both image-to-recipe and
recipe-to-image retrievals.
- Abstract(参考訳): 本稿では,料理レシピと食品画像のクロスモーダル検索のために,ジェマと呼ばれるテキスト画像統合組込み学習のための3層モードアライメントアプローチを提案する。
第1階層は、LSTMネットワークを項抽出とランク付けされた拡張シーケンスパターンに最適化することによりレシピテキストの埋め込みを改善し、ResNeXt-101画像エンコーダとWideResNet-50と word2vecを用いたカテゴリ埋め込みを組み合わせることにより、画像埋め込みを最適化する。
第2階層の相同性アライメントは、ソフトマージン最適化を伴うダブルバッチハード三重項損失を用いて、テキスト-視覚ジョイント埋め込み損失関数を最適化する。
第3のモダリティアライメントは、補助損失正規化として2種類の交叉モダリティアライメントを組み込んでおり、2つのモダリティ固有の埋め込み関数の合同学習におけるアライメント誤差をさらに低減している。
カテゴリベースのクロスモーダルアライメントは、ジョイント埋め込みに対する損失正規化として、画像カテゴリをレシピカテゴリにアライメントすることを目的としている。
クロスモーダル判別器に基づくアライメントは、ジョイント埋め込み損失をさらに正規化するために、視覚的なテキスト埋め込み分布アライメントを追加することを目的としている。
1千万レシピベンチマークデータセットのレシピ1mによる広範囲な実験は、提案されたjemaアプローチが、画像からレシピへの検索とレシピから画像への検索の両方において最先端のクロスモーダル埋め込み手法よりも優れていることを示している。
関連論文リスト
- Optimizing CLIP Models for Image Retrieval with Maintained Joint-Embedding Alignment [0.7499722271664144]
Contrastive Language and Image Pairing (CLIP) はマルチメディア検索における変換手法である。
CLIPは通常、2つのニューラルネットワークを同時にトレーニングし、テキストとイメージペアのジョイント埋め込みを生成する。
本稿では,様々な画像に基づく類似性検索シナリオに対して,CLIPモデルを最適化するという課題に対処する。
論文 参考訳(メタデータ) (2024-09-03T14:33:01Z) - Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Bridging the Gap: Multi-Level Cross-Modality Joint Alignment for
Visible-Infrared Person Re-Identification [41.600294816284865]
Visible-Infrared Person Re-IDentification (VI-ReID)は、歩行者の画像を可視カメラと赤外線カメラに合わせることを目的としている。
モダリティギャップを解決するため、既存の主流手法では、画像検索タスクを画像分類タスクに変換する学習パラダイムを採用している。
モーダリティと目的レベルのギャップを埋める,単純かつ効果的な多層クロスモーダリティ共同アライメント(MCJA)を提案する。
論文 参考訳(メタデータ) (2023-07-17T08:24:05Z) - Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations [67.92679668612858]
我々は,集団が個人より優れているという心理的概念に触発されたコンセンサスネットワーク(Css-Net)を提案する。
Css-Netは,(1)コンセンサスモジュールと4つのコンセンサスモジュール,(2)コンセンサス間の相互作用の学習を促進するKulback-Leibler分散損失の2つのコアコンポーネントから構成される。
ベンチマークデータセット、特にFashionIQでは、Css-Netが大幅に改善されている。特に、R@10が2.77%、R@50が6.67%増加し、リコールが大幅に向上している。
論文 参考訳(メタデータ) (2023-06-03T11:50:44Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - Learning TFIDF Enhanced Joint Embedding for Recipe-Image Cross-Modal
Retrieval Service [13.321319187357844]
両モード間の共通特徴空間(テキストと画像)を学習するための多モードセマンティックス強化共同埋め込み手法(MSJE)を提案する。
まず、レシピのタイトル、材料、調理指導からTFIDFの特徴を抽出する。
第2に、レシピTFIDF機能と、2段階のLSTMネットワークから抽出されたレシピシーケンス機能を組み合わせることで、レシピとその関連画像のユニークな関係を捉えるのに有効である。
第3に、画像モダリティのマッピングを改善し、規制するために、TFIDF強化カテゴリセマンティクスを組み込んだ。
論文 参考訳(メタデータ) (2021-08-02T08:49:30Z) - Efficient Deep Feature Calibration for Cross-Modal Joint Embedding
Learning [14.070841236184439]
本稿では,テキスト画像のクロスモーダルな関節埋め込みを効果的に学習するための2相深い特徴キャリブレーションフレームワークを提案する。
プリプロセッシングでは、生のテキストイメージ入力データから派生したセマンティックコンテキスト特徴と、深い特徴工学を組み合わせることで、深い特徴キャリブレーションを行う。
組込み学習において,ソフトマージンと二重負サンプリングによるバッチハード三重項損失関数の最適化により,深い特徴校正を行う。
論文 参考訳(メタデータ) (2021-08-02T08:16:58Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。