論文の概要: CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models
- arxiv url: http://arxiv.org/abs/2412.09936v1
- Date: Fri, 13 Dec 2024 07:51:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:02:50.717404
- Title: CaLoRAify: Calorie Estimation with Visual-Text Pairing and LoRA-Driven Visual Language Models
- Title(参考訳): CaLoRAify: ビジュアルテキストペアリングとLoRA駆動のビジュアル言語モデルによるカロリー推定
- Authors: Dongyu Yao, Keling Yao, Junhong Zhou, Yinghao Zhang,
- Abstract要約: 視覚言語モデル(VLM)は、現実世界の文脈を理解し、対話的な相互作用を可能にするのに優れている。
本稿では,食材認識とカロリー推定を両立させる新しいVLMフレームワークであるCaLoRAifyについて述べる。
- 参考スコア(独自算出の注目度): 0.8834088442077117
- License:
- Abstract: The obesity phenomenon, known as the heavy issue, is a leading cause of preventable chronic diseases worldwide. Traditional calorie estimation tools often rely on specific data formats or complex pipelines, limiting their practicality in real-world scenarios. Recently, vision-language models (VLMs) have excelled in understanding real-world contexts and enabling conversational interactions, making them ideal for downstream tasks such as ingredient analysis. However, applying VLMs to calorie estimation requires domain-specific data and alignment strategies. To this end, we curated CalData, a 330K image-text pair dataset tailored for ingredient recognition and calorie estimation, combining a large-scale recipe dataset with detailed nutritional instructions for robust vision-language training. Built upon this dataset, we present CaLoRAify, a novel VLM framework aligning ingredient recognition and calorie estimation via training with visual-text pairs. During inference, users only need a single monocular food image to estimate calories while retaining the flexibility of agent-based conversational interaction. With Low-rank Adaptation (LoRA) and Retrieve-augmented Generation (RAG) techniques, our system enhances the performance of foundational VLMs in the vertical domain of calorie estimation. Our code and data are fully open-sourced at https://github.com/KennyYao2001/16824-CaLORAify.
- Abstract(参考訳): 重篤な問題として知られる肥満現象は、世界中で予防可能な慢性疾患の主要な原因である。
伝統的なカロリー推定ツールは、しばしば特定のデータフォーマットや複雑なパイプラインに依存し、現実のシナリオにおける実用性を制限する。
近年,視覚言語モデル (VLM) は,現実世界の文脈を理解し,対話的な対話を可能にするのに優れており,成分分析などの下流作業に最適である。
しかしながら、VLMをカロリー推定に適用するには、ドメイン固有のデータとアライメント戦略が必要である。
そこで我々は,食材認識とカロリー推定に適した330K画像テキストペアデータセットであるCalDataを,大規模レシピデータセットと詳細な栄養指導を組み合わせることで,堅牢な視覚言語学習を実現した。
このデータセットをベースとした新しいVLMフレームワークであるCaLoRAifyを提案する。
推論中、ユーザーは、エージェントベースの会話相互作用の柔軟性を維持しながら、カロリーを見積もるために、単一の単色食品画像しか必要としない。
低ランク適応 (LoRA) とレトリーブ拡張生成 (RAG) 技術により, 本システムはカロリー推定の垂直領域における基礎VLMの性能を向上させる。
私たちのコードとデータはhttps://github.com/KennyYao2001/16824-CaLORAify.comで完全にオープンソース化されています。
関連論文リスト
- ICT: Image-Object Cross-Level Trusted Intervention for Mitigating Object Hallucination in Large Vision-Language Models [32.24716280370563]
ICTは、異なるレベルの視覚情報に焦点を移すための介入方向を計算する軽量でトレーニング不要な手法である。
少量のデータで強力なパフォーマンスを実現し、さまざまなデータセットやモデルにまたがってうまく一般化する。
論文 参考訳(メタデータ) (2024-11-22T12:22:21Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Multi-modal Food Recommendation using Clustering and Self-supervised Learning [27.74592587848116]
CLUSSLは,クラスタリングと自己教師型学習を活用する新しい食品レコメンデーションフレームワークである。
CLUSSLは、各モダリティに特有のグラフを離散的/連続的な特徴で定式化し、意味的特徴を構造的表現に変換する。
異なるユニモーダルグラフから導出されるレシピ表現間の独立性を促進するために,自己指導型学習目標を提案する。
論文 参考訳(メタデータ) (2024-06-27T07:45:17Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Concept Drift and Long-Tailed Distribution in Fine-Grained Visual Categorization: Benchmark and Method [84.68818879525568]
コンセプションドリフトとLong-Tailed Distributionデータセットを提案する。
インスタンスの特徴は時間によって異なり、長い尾の分布を示す傾向がある。
本稿ではCDLTに関連する学習課題に対処する機能組換えフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-04T12:42:45Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z) - An Open-Source Dataset on Dietary Behaviors and DASH Eating Plan
Optimization Constraints [0.29298205115761694]
我々は、異なるグループの食行動、その人口統計、および既存の状況に基づいて、修正されたデータセットを提供する。
また,高血圧およびプレ糖尿病患者を対象に,標的食の利益を享受する興味のあるグループとして,調整したデータセットを提供する。
論文 参考訳(メタデータ) (2020-10-15T05:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。