論文の概要: MultiFoodhat: A potential new paradigm for intelligent food quality inspection
- arxiv url: http://arxiv.org/abs/2510.13889v1
- Date: Tue, 14 Oct 2025 03:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.514739
- Title: MultiFoodhat: A potential new paradigm for intelligent food quality inspection
- Title(参考訳): MultiFoodhat:インテリジェントな食品品質検査のための新しいパラダイム
- Authors: Yue Hu, Guohang Zhuang,
- Abstract要約: MultiFoodChatは、ゼロショット食品認識のための対話駆動型マルチエージェント推論フレームワークである。
Object Perception Token (OPT) はきめ細かい視覚特性を捉え、Interactive Reasoning Agent (IRA) は文脈的手がかりを動的に解釈して予測を洗練させる。
複数の公開食品データセットの実験により、MultiFoodChatは、既存の教師なしおよび少数ショットの手法と比較して、認識精度と解釈性に優れることを示した。
- 参考スコア(独自算出の注目度): 7.966483944010341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food image classification plays a vital role in intelligent food quality inspection, dietary assessment, and automated monitoring. However, most existing supervised models rely heavily on large labeled datasets and exhibit limited generalization to unseen food categories. To overcome these challenges, this study introduces MultiFoodChat, a dialogue-driven multi-agent reasoning framework for zero-shot food recognition. The framework integrates vision-language models (VLMs) and large language models (LLMs) to enable collaborative reasoning through multi-round visual-textual dialogues. An Object Perception Token (OPT) captures fine-grained visual attributes, while an Interactive Reasoning Agent (IRA) dynamically interprets contextual cues to refine predictions. This multi-agent design allows flexible and human-like understanding of complex food scenes without additional training or manual annotations. Experiments on multiple public food datasets demonstrate that MultiFoodChat achieves superior recognition accuracy and interpretability compared with existing unsupervised and few-shot methods, highlighting its potential as a new paradigm for intelligent food quality inspection and analysis.
- Abstract(参考訳): 食品画像分類は、インテリジェントな食品品質検査、食事評価、自動監視において重要な役割を担っている。
しかし、既存の教師付きモデルの多くは、大きなラベル付きデータセットに大きく依存しており、目に見えない食品カテゴリーへの限定的な一般化を示している。
これらの課題を克服するために、ゼロショット食品認識のための対話駆動型マルチエージェント推論フレームワークであるMultiFoodChatを紹介した。
このフレームワークは視覚言語モデル(VLM)と大規模言語モデル(LLM)を統合し、多ラウンドの視覚・テキスト対話による協調推論を可能にする。
Object Perception Token (OPT) はきめ細かい視覚特性を捉え、Interactive Reasoning Agent (IRA) は文脈的手がかりを動的に解釈して予測を洗練させる。
このマルチエージェントデザインは、追加のトレーニングや手動のアノテーションなしで、柔軟で人間らしい複雑な食品シーンの理解を可能にする。
複数の公開食品データセットの実験では、MultiFoodChatは、既存の教師なしおよび少数ショットの手法と比較して、認識精度と解釈可能性に優れており、インテリジェントな食品品質検査と分析のための新しいパラダイムとしての可能性を強調している。
関連論文リスト
- A SAM based Tool for Semi-Automatic Food Annotation [0.0]
SAM(Segment Anything Model)を利用した半自動食品画像アノテーションツールのデモを紹介する。
このツールは、ユーザインタラクションを通じて、即時ベースの食品セグメンテーションを可能にし、ユーザエンゲージメントを促進し、食事イメージ内の食品のさらなる分類を可能にする。
また、食品画像のセグメンテーションに特化したViT-Bバックボーンを備えた、MealSAMと呼ばれるSAMのマスクデコーダの微調整版もリリースしました。
論文 参考訳(メタデータ) (2024-10-11T11:50:10Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Dietary Assessment with Multimodal ChatGPT: A Systematic Analysis [17.333822848423708]
本研究は、食事アセスメントの領域におけるマルチモーダルChatGPTの適用について検討する。
モデルを特定の言語プロンプトで導くことで、GPT-4Vは、米やパンのような一般的な主食を認識することから、バンクーやウグリといった地域料理を正確に識別するようになる。
GPT-4Vは、周囲の物体をスケール基準として利用し、食品の部位サイズを推定し、食品の重量を栄養分に翻訳する精度をさらに高める。
論文 参考訳(メタデータ) (2023-12-14T01:26:45Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。