Fugu-MT 論文翻訳(概要): SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

論文の概要: SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding

arxiv url: http://arxiv.org/abs/2604.15628v1
Date: Fri, 17 Apr 2026 02:09:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-20 22:00:19.705637
Title: SIMMER: Cross-Modal Food Image--Recipe Retrieval via MLLM-Based Embedding
Title（参考訳）: SIMMER:クロスモーダル食品画像-MLLMベースの埋め込みによるレシピ検索
Authors: Keisuke Gomi, Keiji Yanai,
Abstract要約: 食品画像とレシピテキスト間の相互検索は、栄養管理、食材伐採、調理支援における重要な課題である。本稿では,Multimodal Large Language Model(MLLM)に基づく埋め込みモデル,特にVLM2Vecを適用したSIMMERを提案する。我々はレシピの構造的な性質に合わせたプロンプトテンプレートを設計する。完全かつ部分的なレシピでモデルをトレーニングし、不完全入力に対する堅牢性を向上するコンポーネント対応データ拡張戦略を導入する。
参考スコア（独自算出の注目度）: 4.719615308536812
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-modal retrieval between food images and recipe texts is an important task with applications in nutritional management, dietary logging, and cooking assistance. Existing methods predominantly rely on dual-encoder architectures with separate image and text encoders, requiring complex alignment strategies and task-specific network designs to bridge the semantic gap between modalities. In this work, we propose SIMMER (Single Integrated Multimodal Model for Embedding Recipes), which applies Multimodal Large Language Model (MLLM)-based embedding models, specifically VLM2Vec, to this task, replacing the conventional dual-encoder paradigm with a single unified encoder that processes both food images and recipe texts. We design prompt templates tailored to the structured nature of recipes, which consist of a title, ingredients, and cooking instructions, enabling effective embedding generation by the MLLM. We further introduce a component-aware data augmentation strategy that trains the model on both complete and partial recipes, improving robustness to incomplete inputs. Experiments on the Recipe1M dataset demonstrate that SIMMER achieves state-of-the-art performance across both the 1k and 10k evaluation settings, substantially outperforming all prior methods. In particular, our best model improves the 1k image-to-recipe R@1 from 81.8\% to 87.5\% and the 10k image-to-recipe R@1 from 56.5\% to 65.5\% compared to the previous best method.
Abstract（参考訳）: 食品画像とレシピテキスト間の相互検索は、栄養管理、食材伐採、調理支援における重要な課題である。既存の手法は主に画像とテキストのエンコーダを分離したデュアルエンコーダアーキテクチャに依存しており、モダリティ間のセマンティックギャップを埋めるために複雑なアライメント戦略とタスク固有のネットワーク設計を必要とする。本研究では,Multimodal Large Language Model(MLLM)に基づく埋め込みモデル,特にVLM2Vecを適用したSIMMER(Single Integrated Multimodal Model for Embedding Recipes)を提案する。我々は,レシピの構造的性質に合わせたプロンプトテンプレートを設計し,その名称,材料,調理指示からなり,MLLMによる効果的な埋め込み生成を可能にする。さらに、完全かつ部分的なレシピでモデルをトレーニングし、不完全入力に対する堅牢性を向上するコンポーネント対応データ拡張戦略を導入する。 Recipe1Mデータセットの実験では、SIMMERは1kと10kの評価設定の両方で最先端のパフォーマンスを達成し、以前のすべてのメソッドよりも大幅に優れていた。特に,1k-to-recipe R@1を81.8-%から87.5-%に,10k-to-recipe R@1を56.5-%から65.5-%に改善した。

関連論文リスト

Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文参考訳（メタデータ） (2024-11-13T15:58:50Z)
RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。 Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文参考訳（メタデータ） (2024-07-17T16:49:34Z)
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文参考訳（メタデータ） (2023-12-22T11:56:22Z)
The Multimodal And Modular Ai Chef: Complex Recipe Generation From Imagery [0.0]
本稿では、モノリシックなアプローチと、画像モデルを用いてオブジェクトをラベル付けする軽量で特殊な手法を比較する。モジュール型の代替手段としてAPIを実証するため,冷凍機で利用可能な材料をユーザが写真を撮って,複雑な制約に合わせた新しいレシピカードを生成するという課題を解決した。初めて、AIのシェフや料理人は、できるだけでなく、人間のレシピライブラリを実用的に拡張する能力も提供する。
論文参考訳（メタデータ） (2023-03-20T01:57:52Z)
Revamping Cross-Modal Recipe Retrieval with Hierarchical Transformers and Self-supervised Learning [17.42688184238741]
近年, 生活における食品の重要性から, クロスモーダルなレシピ検索が注目されている。本稿では,テキストおよび画像のエンコーダの確立と高性能化に基づく,簡易なエンド・ツー・エンドモデルを提案する。提案手法は,Recipe1Mデータセットのクロスモーダルレシピ検索タスクにおける最新性能を実現する。
論文参考訳（メタデータ） (2021-03-24T10:17:09Z)
CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文参考訳（メタデータ） (2021-02-04T11:24:34Z)
Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文参考訳（メタデータ） (2020-12-02T17:27:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。