論文の概要: Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval
- arxiv url: http://arxiv.org/abs/2510.20393v1
- Date: Thu, 23 Oct 2025 09:43:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.739138
- Title: Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval
- Title(参考訳): 多文化画像からレシピ検索のためのクロスモーダル表現バイアスの緩和
- Authors: Qing Wang, Chong-Wah Ngo, Yu Cao, Ee-Peng Lim,
- Abstract要約: 画像とレシピ間のモダリティギャップを橋渡しするクロスモーダル表現は、微妙なレシピ特有の詳細を無視する傾向がある。
本稿では,イメージに見過ごされる可能性のある料理の要素を予測する新しい因果的アプローチを提案する。
標準のモノリンガルRecipe1Mデータセットと、新しくキュレートされた多言語多文化料理データセットで実験を行った。
- 参考スコア(独自算出の注目度): 33.17028372962136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for image-to-recipe retrieval have the implicit assumption that a food image can fully capture the details textually documented in its recipe. However, a food image only reflects the visual outcome of a cooked dish and not the underlying cooking process. Consequently, learning cross-modal representations to bridge the modality gap between images and recipes tends to ignore subtle, recipe-specific details that are not visually apparent but are crucial for recipe retrieval. Specifically, the representations are biased to capture the dominant visual elements, resulting in difficulty in ranking similar recipes with subtle differences in use of ingredients and cooking methods. The bias in representation learning is expected to be more severe when the training data is mixed of images and recipes sourced from different cuisines. This paper proposes a novel causal approach that predicts the culinary elements potentially overlooked in images, while explicitly injecting these elements into cross-modal representation learning to mitigate biases. Experiments are conducted on the standard monolingual Recipe1M dataset and a newly curated multilingual multicultural cuisine dataset. The results indicate that the proposed causal representation learning is capable of uncovering subtle ingredients and cooking actions and achieves impressive retrieval performance on both monolingual and multilingual multicultural datasets.
- Abstract(参考訳): 既存のイメージ・ツー・レシピ検索のアプローチは、食品画像がそのレシピで文書化された詳細を完全にキャプチャできるという暗黙の仮定を持っている。
しかし、料理のイメージは料理の視覚的な結果のみを反映し、根底にある調理過程を反映しない。
その結果、画像とレシピ間のモダリティギャップを埋めるためにモダリティ間の表現を学ぶことは、視覚的に明らかではないがレシピ検索に不可欠である微妙なレシピ固有の詳細を無視する傾向にある。
特に、これらの表現は、支配的な視覚要素を捉えるために偏りがあり、食材や調理方法の微妙な違いを伴う類似のレシピのランク付けが困難になる。
表現学習のバイアスは、異なる料理から得られる画像とレシピの訓練データが混ざり合うと、より深刻になると予想される。
本稿では,イメージに見過ごされる可能性のある料理要素を予測するための新たな因果的アプローチを提案するとともに,これらの要素をモーダルな表現学習に明示的に注入することでバイアスを緩和する手法を提案する。
標準モノリンガルRecipe1Mデータセットと、新しくキュレートされた多言語多文化料理データセットを用いて実験を行った。
提案した因果表現学習は、微妙な材料や調理行動を明らかにすることができ、単言語と多言語の両方の多文化データセット上で印象的な検索性能が得られることを示す。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - MALM: Mask Augmentation based Local Matching for Food-Recipe Retrieval [6.582204441933583]
本稿では,マスク拡張型局所マッチングネットワーク(MALM)を提案する。
Recipe1Mデータセットによる実験結果から,本手法は最先端(SOTA)手法より明らかに優れていることが示された。
論文 参考訳(メタデータ) (2023-05-18T22:25:50Z) - Cross-lingual Adaptation for Recipe Retrieval with Mixup [56.79360103639741]
近年,大規模なペアリングデータの提供により,クロスモーダルなレシピ検索が研究の注目を集めている。
本稿では,ソース領域とターゲット領域のレシピが異なる言語で作成される画像からレシピ検索のための教師なし領域適応について検討する。
2つの領域間の移動可能な埋め込み特徴を学習するために,新しいレシピ・ミックスアップ法を提案する。
論文 参考訳(メタデータ) (2022-05-08T15:04:39Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。