論文の概要: Food-R1: A Unified Multi-Task Food Vision-Language Model with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.04986v1
- Date: Wed, 03 Jun 2026 15:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.845713
- Title: Food-R1: A Unified Multi-Task Food Vision-Language Model with Reinforcement Learning
- Title(参考訳): Food-R1:強化学習を用いた統合多タスク食品ビジョンランゲージモデル
- Authors: Yu Zhu, Yongkang Li, Wenjie Zhu, Haoyi Jiang, Wenyu Liu, Wei Yang, Bin Li, Xinggang Wang,
- Abstract要約: CalorieBench-80Kは、キュレートされたカロリーラベルと食事アドバイスアノテーションを備えた大規模ベンチマークである。
我々の知る限りでは、カロリー分析のためにChain-of-Thought(CoT)アノテーションを取り入れた初めての食品画像ベンチマークである。
また,多タスク学習パラダイムで訓練した統合食品VLMであるFood-R1を提案する。
- 参考スコア(独自算出の注目度): 44.68518637735983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have explored Vision-Language Models (VLMs) for food analysis. However, most existing methods rely primarily on supervised fine-tuning (SFT), which often limits reasoning and generalization capabilities. Moreover, high-quality large-scale nutritional annotations remain scarce. To address these issues, we introduce CalorieBench-80K, a large-scale benchmark with curated calorie labels and dietary advice annotations. To the best of our knowledge, it is the first food image benchmark to incorporate Chain-of-Thought (CoT) annotations for calorie reasoning. We also propose Food-R1, a unified food VLM trained in a multi-task learning paradigm to equip the model with broad capabilities. Food-R1 undergoes CoT-based cold-start instruction tuning, followed by reinforcement fine-tuning (RFT) using Group Relative Policy Optimization (GRPO) to improve reasoning and performance. Experiments on CalorieBench-80K and representative benchmarks show that Food-R1 consistently outperforms strong baselines across food-related tasks. The code, model weights, and benchmark annotations are available at the project repository.
- Abstract(参考訳): 近年、食品分析のための視覚言語モデル (VLM) の研究が進められている。
しかし、既存のほとんどの手法は、しばしば推論と一般化能力を制限する教師付き微調整(SFT)に依存している。
また、高品質な栄養アノテーションも乏しい。
これらの問題に対処するために、カロリーベンチ80K(CalorieBench-80K)という、キュレートされたカロリーラベルと食事アドバイスアノテーションを備えた大規模ベンチマークを導入する。
我々の知る限りでは、カロリー分析のためにChain-of-Thought(CoT)アノテーションを取り入れた初めての食品画像ベンチマークである。
また,多タスク学習パラダイムで訓練した統合食品VLMであるFood-R1を提案する。
Food-R1 は CoT ベースのコールドスタート命令チューニングを実行し、続いて Group Relative Policy Optimization (GRPO) を用いた強化微調整(RFT)を行い、推論と性能を改善した。
CalorieBench-80Kの実験と代表的なベンチマークによれば、Food-R1は食品関連のタスクにおいて強いベースラインを一貫して上回っている。
コード、モデルの重み付け、ベンチマークアノテーションはプロジェクトリポジトリで入手できる。
関連論文リスト
- OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion [32.43875223470578]
既存の食品データセットのほとんどは、主に西洋料理に焦点を当てており、中国の料理を十分に網羅していない。
我々は8,036個の食品サンプルからなる総合マルチモーダルデータセットであるOmniFood8Kを紹介する。
本稿では,1枚のRGB画像から栄養予測を行うためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T06:45:32Z) - MultiFoodhat: A potential new paradigm for intelligent food quality inspection [7.966483944010341]
MultiFoodChatは、ゼロショット食品認識のための対話駆動型マルチエージェント推論フレームワークである。
Object Perception Token (OPT) はきめ細かい視覚特性を捉え、Interactive Reasoning Agent (IRA) は文脈的手がかりを動的に解釈して予測を洗練させる。
複数の公開食品データセットの実験により、MultiFoodChatは、既存の教師なしおよび少数ショットの手法と比較して、認識精度と解釈性に優れることを示した。
論文 参考訳(メタデータ) (2025-10-14T03:39:03Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Food Recommendation as Language Processing (F-RLP): A Personalized and
Contextual Paradigm [3.0057566758557974]
F-RLP(Food Recommendation as Language Processing)は、食品特有の、カスタマイズされたインフラを提供する新しいフレームワークである。
F-RLPは、Large Language Models(LLM)の機能を活用して、そのポテンシャルを最大化し、より正確でパーソナライズされた食品レコメンデーションの道を開く。
論文 参考訳(メタデータ) (2024-02-12T08:32:29Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Single-Stage Heavy-Tailed Food Classification [7.800379384628357]
そこで本研究では,新しい一段階のヘビーテール食品分類フレームワークを提案する。
本手法は,フード101-LTとVFN-LTの2つの重み付き食品ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-07-01T00:45:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。