論文の概要: Towards Unbiased Cross-Modal Representation Learning for Food Image-to-Recipe Retrieval
- arxiv url: http://arxiv.org/abs/2511.15201v1
- Date: Wed, 19 Nov 2025 07:39:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 15:51:28.688292
- Title: Towards Unbiased Cross-Modal Representation Learning for Food Image-to-Recipe Retrieval
- Title(参考訳): 食品画像からレシピ検索のための非偏在型クロスモーダル表現学習に向けて
- Authors: Qing Wang, Chong-Wah Ngo, Ee-Peng Lim,
- Abstract要約: 本稿では, レシピや食品画像の学習表現の課題を, クロスモーダル検索問題における課題として論じる。
レシピと調理された料理との関係は因果関係であるので、レシピをテキストソースとして扱うと、バイアスを導いた画像とレシピの類似性判定が生成される。
本稿では, 事実上脱バイアスのための多ラベル成分であるプラグアンドプレイニューラルモジュールを提案する。
- 参考スコア(独自算出の注目度): 33.21317747745805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the challenges of learning representations for recipes and food images in the cross-modal retrieval problem. As the relationship between a recipe and its cooked dish is cause-and-effect, treating a recipe as a text source describing the visual appearance of a dish for learning representation, as the existing approaches, will create bias misleading image-and-recipe similarity judgment. Specifically, a food image may not equally capture every detail in a recipe, due to factors such as the cooking process, dish presentation, and image-capturing conditions. The current representation learning tends to capture dominant visual-text alignment while overlooking subtle variations that determine retrieval relevance. In this paper, we model such bias in cross-modal representation learning using causal theory. The causal view of this problem suggests ingredients as one of the confounder sources and a simple backdoor adjustment can alleviate the bias. By causal intervention, we reformulate the conventional model for food-to-recipe retrieval with an additional term to remove the potential bias in similarity judgment. Based on this theory-informed formulation, we empirically prove the oracle performance of retrieval on the Recipe1M dataset to be MedR=1 across the testing data sizes of 1K, 10K, and even 50K. We also propose a plug-and-play neural module, which is essentially a multi-label ingredient classifier for debiasing. New state-of-the-art search performances are reported on the Recipe1M dataset.
- Abstract(参考訳): 本稿では, レシピや食品画像の学習表現の課題を, クロスモーダル検索問題における課題として論じる。
レシピと料理の関係は因果関係にあるため、既存のアプローチとして、表現を学習するための料理の視覚的外観を記述したテキストソースとして、レシピを扱い、バイアスを招くイメージとレシピの類似性判定を生成する。
具体的には、調理過程、料理の提示、イメージキャプチャー条件などの要因により、食品画像はレシピのあらゆる詳細を等しくキャプチャすることができない。
現在の表現学習は、検索の関連性を決定する微妙な変化を見落としながら、支配的な視覚的テキストアライメントを捉える傾向にある。
本稿では、因果理論を用いたクロスモーダル表現学習におけるそのようなバイアスをモデル化する。
この問題の因果的見解は、共同創設者の1人として材料が示唆され、シンプルなバックドア調整によってバイアスが軽減される。
因果介入により、類似性判定における潜在的なバイアスを取り除くために、食品とレシピ検索の従来のモデルを追加用語で再構成する。
この理論をインフォームドした定式化に基づいて,1K,10K,50Kの試験データサイズでMedR=1となるRecipe1Mデータセットにおける検索のオラクル性能を実証的に証明した。
また,マルチラベル成分分類器であるプラグアンドプレイニューラルモジュールを提案する。
Recipe1Mデータセットには、新しい最先端の検索パフォーマンスが報告されている。
関連論文リスト
- Mitigating Cross-modal Representation Bias for Multicultural Image-to-Recipe Retrieval [33.17028372962136]
画像とレシピ間のモダリティギャップを橋渡しするクロスモーダル表現は、微妙なレシピ特有の詳細を無視する傾向がある。
本稿では,イメージに見過ごされる可能性のある料理の要素を予測する新しい因果的アプローチを提案する。
標準のモノリンガルRecipe1Mデータセットと、新しくキュレートされた多言語多文化料理データセットで実験を行った。
論文 参考訳(メタデータ) (2025-10-23T09:43:43Z) - Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers
and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。
本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。
提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文 参考訳(メタデータ) (2021-03-24T10:17:09Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - Picture-to-Amount (PITA): Predicting Relative Ingredient Amounts from
Food Images [24.26111169033236]
食品画像から各成分の相対的な量を予測するという,新しい課題と課題について考察する。
本稿では,この問題を解決するために,Picture-to-AmountディープラーニングアーキテクチャであるPITAを提案する。
インターネットから収集されたレシピのデータセットの実験は、モデルが有望な結果を生成することを示す。
論文 参考訳(メタデータ) (2020-10-17T06:43:18Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。