Fugu-MT 論文翻訳(概要): LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets

論文の概要: LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets

arxiv url: http://arxiv.org/abs/2511.16037v1
Date: Thu, 20 Nov 2025 04:38:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-21 17:08:52.47042
Title: LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets
Title（参考訳）: 長期食品データセットにおけるLLMによるドメイン適応の強化
Authors: Qing Wang, Chong-Wah Ngo, Ee-Peng Lim, Qianru Sun,
Abstract要約: 食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
参考スコア（独自算出の注目度）: 54.527878056610156
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Training a model for food recognition is challenging because the training samples, which are typically crawled from the Internet, are visually different from the pictures captured by users in the free-living environment. In addition to this domain-shift problem, the real-world food datasets tend to be long-tailed distributed and some dishes of different categories exhibit subtle variations that are difficult to distinguish visually. In this paper, we present a framework empowered with large language models (LLMs) to address these challenges in food recognition. We first leverage LLMs to parse food images to generate food titles and ingredients. Then, we project the generated texts and food images from different domains to a shared embedding space to maximize the pair similarities. Finally, we take the aligned features of both modalities for recognition. With this simple framework, we show that our proposed approach can outperform the existing approaches tailored for long-tailed data distribution, domain adaptation, and fine-grained classification, respectively, on two food datasets.
Abstract（参考訳）: 食品認識モデルのトレーニングは、通常インターネットからクロールされるトレーニングサンプルが、自由生活環境でユーザーが撮影した写真と視覚的に異なるため、難しい。このドメインシフト問題に加えて、現実世界の食品データセットは長い尾の分布傾向があり、いくつかのカテゴリーの料理は視覚的に区別が難しい微妙な変化を示す。本稿では,食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。最後に、両モードの特徴を一致させて認識する。この単純な枠組みにより, 提案手法は, 2つの食品データセット上で, 長期データ分布, ドメイン適応, きめ細かい分類に適した既存手法より優れていることを示す。

関連論文リスト

From Canteen Food to Daily Meals: Generalizing Food Recognition to More Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文参考訳（メタデータ） (2024-03-12T08:32:23Z)
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文参考訳（メタデータ） (2023-12-22T11:56:22Z)
FoodFusion: A Latent Diffusion Model for Realistic Food Image Generation [69.91401809979709]
後期拡散モデル(LDMs)のような最先端画像生成モデルでは、視覚的に印象的な食品関連画像を生成する能力が実証されている。本稿では,テキスト記述からリアルな食品画像の忠実な合成を目的とした,潜伏拡散モデルであるFoodFusionを紹介する。 FoodFusionモデルの開発には、大規模なオープンソースフードデータセットを活用することが含まれており、30万以上のキュレーションされたイメージキャプチャペアが生成される。
論文参考訳（メタデータ） (2023-12-06T15:07:12Z)
Diffusion Model with Clustering-based Conditioning for Food Image Generation [22.154182296023404]
深層学習に基づく手法は、食品分類、セグメンテーション、部分サイズ推定などの画像解析に一般的に用いられている。潜在的な解決策の1つは、データ拡張に合成食品画像を使用することである。本稿では,高品質で代表的な食品画像を生成するための効果的なクラスタリングベースのトレーニングフレームワークであるClusDiffを提案する。
論文参考訳（メタデータ） (2023-09-01T01:40:39Z)
Transferring Knowledge for Food Image Segmentation using Transformers and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。 1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。 2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。 BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文参考訳（メタデータ） (2023-06-15T15:38:10Z)
A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。 ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文参考訳（メタデータ） (2021-05-12T03:00:07Z)
Visual Aware Hierarchy Based Food Recognition [10.194167945992938]
本稿では,コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた2段階の食品認識システムを提案する。食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。食品分類工程では、視覚的に類似した食品カテゴリーを自動的にまとめて階層構造を生成することができる。
論文参考訳（メタデータ） (2020-12-06T20:25:31Z)
MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文参考訳（メタデータ） (2020-04-02T16:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。