論文の概要: RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models
- arxiv url: http://arxiv.org/abs/2407.12730v3
- Date: Mon, 16 Dec 2024 06:16:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:25.489147
- Title: RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models
- Title(参考訳): RoDE:大規模食品多モードモデルのための横型エキスパートの線形整流混合
- Authors: Pengkun Jiao, Xinlan Wu, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yugang Jiang,
- Abstract要約: Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
- 参考スコア(独自算出の注目度): 96.43285670458803
- License:
- Abstract: Large Multi-modal Models (LMMs) have significantly advanced a variety of vision-language tasks. The scalability and availability of high-quality training data play a pivotal role in the success of LMMs. In the realm of food, while comprehensive food datasets such as Recipe1M offer an abundance of ingredient and recipe information, they often fall short of providing ample data for nutritional analysis. The Recipe1M+ dataset, despite offering a subset for nutritional evaluation, is limited in the scale and accuracy of nutrition information. To bridge this gap, we introduce Uni-Food, a unified food dataset that comprises over 100,000 images with various food labels, including categories, ingredients, recipes, and ingredient-level nutritional information. Uni-Food is designed to provide a more holistic approach to food data analysis, thereby enhancing the performance and capabilities of LMMs in this domain. To mitigate the conflicts arising from multi-task supervision during fine-tuning of LMMs, we introduce a novel Linear Rectification Mixture of Diverse Experts (RoDE) approach. RoDE utilizes a diverse array of experts to address tasks of varying complexity, thereby facilitating the coordination of trainable parameters, i.e., it allocates more parameters for more complex tasks and, conversely, fewer parameters for simpler tasks. RoDE implements linear rectification union to refine the router's functionality, thereby enhancing the efficiency of sparse task allocation. These design choices endow RoDE with features that ensure GPU memory efficiency and ease of optimization. Our experimental results validate the effectiveness of our proposed approach in addressing the inherent challenges of food-related multitasking.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は様々な視覚言語タスクを大幅に進歩させた。
高品質なトレーニングデータのスケーラビリティと可用性は、LMMの成功に重要な役割を果たす。
食品の分野では、Recipe1Mのような包括的な食品データセットは、成分やレシピに関する情報を豊富に提供しているが、栄養分析のための十分なデータを提供していないことが多い。
Recipe1M+データセットは、栄養評価のサブセットを提供するにもかかわらず、栄養情報の規模と正確性に制限されている。
このギャップを埋めるために、Uni-Foodという統合食品データセットを導入し、カテゴリ、食材、レシピ、食材レベルの栄養情報など、さまざまな食品ラベルを持つ10万以上の画像を含む。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供することを目的としており、これにより、この領域におけるLMMの性能と能力が向上する。
LMMの微調整におけるマルチタスク監視による対立を緩和するために,我々は,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパートズ(RoDE)アプローチを導入する。
RoDEは多様な専門家の配列を利用して、様々な複雑さのタスクに対処し、訓練可能なパラメータの調整を容易にする。
RoDEは、ルータの機能を改善するために線形整合結合を実装し、スパースタスク割り当ての効率を向上する。
これらの設計選択は、GPUメモリ効率と最適化の容易さを保証する機能を備えたRoDEを実現する。
食品関連マルチタスキングの課題に対処するための提案手法の有効性を実験的に検証した。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection [37.866458336327184]
食品検出には、現実のシナリオをサポートするために、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)が必要である。
まず,ZSFD(Zero-Shot Food Detection)のタスクを,豊富な属性アノテーションを備えたFOWAデータセットによってベンチマークする。
本稿では,複雑な属性間の相互作用を利用して,きめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:32:35Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications [57.342772288710044]
我々はMOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良い微調整フレームワークを提案する。
MOEとLoRAを統一するために、トレーニング可能なパラメータとして複数の専門家を考案し、トレーニング可能なパラメータの小さなサイズを保持するために、各専門家は2つの低ランク行列から構成される。
マルチタスク医療データセットを用いて実験を行い、MOELoRAが既存のパラメータを効率よく微調整する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-21T17:18:09Z) - FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。
本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。
本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文 参考訳(メタデータ) (2023-08-28T08:14:20Z) - CHEF: Cross-modal Hierarchical Embeddings for Food Domain Retrieval [20.292467149387594]
本稿では,食品画像検索と検索タスクにおける画像とテキストの潜伏表現を協調的にモデル化する,新たなクロスモーダル学習フレームワークを提案する。
本研究では,効率的な木構造長短期記憶を計算クロスモーダル検索フレームワークのテキストエンコーダとして利用することにより,レシピ記述の主成分や調理動作を明示的な監督なしに識別できることを実証した。
論文 参考訳(メタデータ) (2021-02-04T11:24:34Z) - MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。
本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文 参考訳(メタデータ) (2020-04-02T16:00:10Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。