論文の概要: Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation
- arxiv url: http://arxiv.org/abs/2602.15862v1
- Date: Mon, 26 Jan 2026 10:06:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.665836
- Title: Enhancing Action and Ingredient Modeling for Semantically Grounded Recipe Generation
- Title(参考訳): セマンティック・グラウンドド・レシピ生成のためのアクションとイングレディエント・モデリングの強化
- Authors: Guoshan Liu, Bin Zhu, Yian Li, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang,
- Abstract要約: 命令生成のための内部コンテキストとして,アクションや材料を予測し,検証する意味的基盤を持つフレームワークを提案する。
Recipe1Mの実験は最先端の性能を示し、セマンティックな忠実さを著しく改善した。
- 参考スコア(独自算出の注目度): 69.90401008542368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Multimodal Large Language Models (MLMMs) have enabled recipe generation from food images, yet outputs often contain semantically incorrect actions or ingredients despite high lexical scores (e.g., BLEU, ROUGE). To address this gap, we propose a semantically grounded framework that predicts and validates actions and ingredients as internal context for instruction generation. Our two-stage pipeline combines supervised fine-tuning (SFT) with reinforcement fine-tuning (RFT): SFT builds foundational accuracy using an Action-Reasoning dataset and ingredient corpus, while RFT employs frequency-aware rewards to improve long-tail action prediction and ingredient generalization. A Semantic Confidence Scoring and Rectification (SCSR) module further filters and corrects predictions. Experiments on Recipe1M show state-of-the-art performance and markedly improved semantic fidelity.
- Abstract(参考訳): MLMM(Multimodal Large Language Models)の最近の進歩は、食品画像からのレシピ生成を可能にしているが、高い語彙スコア(例えば、BLEU、ROUGE)にもかかわらず、アウトプットには意味的に不正確な動作や成分が含まれることが多い。
このギャップに対処するため、我々は、命令生成のための内部コンテキストとしてアクションや材料を予測し、検証するセマンティックな基盤となるフレームワークを提案する。
我々の2段階パイプラインは、教師付き微調整(SFT)と強化微調整(RFT)を組み合わせる: SFTは、アクション推論データセットと成分コーパスを用いて基礎的精度を構築する一方、RFTは周波数認識報酬を用いて、ロングテールアクション予測と成分一般化を改善する。
Semantic Confidence Scoring and Rectification (SCSR)モジュールは、さらなるフィルタリングと予測の修正を行う。
Recipe1Mの実験は最先端の性能を示し、セマンティックな忠実さを著しく改善した。
関連論文リスト
- Toward Faithful and Complete Answer Construction from a Single Document [1.0742675209112622]
EVEは文書基底推論のための構造化されたフレームワークである。
自由形式のプロンプトとは異なり、EVEは、高厳密な推論を抽出、検証、列挙に分解する構造化された検証可能なパイプラインに、生成を制約する。
論文 参考訳(メタデータ) (2026-02-05T18:22:08Z) - SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Sculpting Features from Noise: Reward-Guided Hierarchical Diffusion for Task-Optimal Feature Transformation [18.670626228472877]
DIFFTは報酬誘導型生成タスクとしてフィーチャートランスフォーメーションを再定義する。
構造的かつ離散的な特徴を生成し、機能内依存関係を保持しながら、並列な機能間生成を可能にする。
予測精度とロバスト性において、最先端のベースラインを一貫して上回り、トレーニングや推論時間を大幅に低下させる。
論文 参考訳(メタデータ) (2025-05-21T06:18:42Z) - Harnessing Mixed Features for Imbalance Data Oversampling: Application to Bank Customers Scoring [5.091061468748012]
MGS-GRFは複合機能用に設計されたオーバーサンプリング戦略である。
その結果,MGS-GRFはコヒーレンス(コヒーレンス),すなわち,原データセットにすでに存在する分類的特徴の組み合わせのみを生成できる能力,すなわち連続的特徴と分類的特徴との依存性を維持できる能力の2つの重要な特性を示すことがわかった。
論文 参考訳(メタデータ) (2025-03-26T08:53:40Z) - ROSE: Revolutionizing Open-Set Dense Segmentation with Patch-Wise Perceptual Large Multimodal Model [75.750699619993]
本稿では,高密度マスク予測とオープンカテゴリ生成が可能な,革命的オープンセット高密度セグメンテーションLMMであるROSEを提案する。
本手法は,各画像パッチを関心領域の独立領域として扱い,密集マスクとスパースマスクを同時に予測する。
論文 参考訳(メタデータ) (2024-11-29T07:00:18Z) - Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。