論文の概要: SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection
- arxiv url: http://arxiv.org/abs/2310.04689v1
- Date: Sat, 7 Oct 2023 05:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:38:20.602776
- Title: SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection
- Title(参考訳): SeeDS: ゼロショット食品検出のためのセマンティック分離拡散合成装置
- Authors: Pengfei Zhou, Weiqing Min, Yang Zhang, Jiajun Song, Ying Jin and
Shuqiang Jiang
- Abstract要約: ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成器(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizer Module (S$3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
- 参考スコア(独自算出の注目度): 38.57712277980073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food detection is becoming a fundamental task in food computing that supports
various multimedia applications, including food recommendation and dietary
monitoring. To deal with real-world scenarios, food detection needs to localize
and recognize novel food objects that are not seen during training, demanding
Zero-Shot Detection (ZSD). However, the complexity of semantic attributes and
intra-class feature diversity poses challenges for ZSD methods in
distinguishing fine-grained food classes. To tackle this, we propose the
Semantic Separable Diffusion Synthesizer (SeeDS) framework for Zero-Shot Food
Detection (ZSFD). SeeDS consists of two modules: a Semantic Separable
Synthesizing Module (S$^3$M) and a Region Feature Denoising Diffusion Model
(RFDDM). The S$^3$M learns the disentangled semantic representation for complex
food attributes from ingredients and cuisines, and synthesizes discriminative
food features via enhanced semantic information. The RFDDM utilizes a novel
diffusion model to generate diversified region features and enhances ZSFD via
fine-grained synthesized features. Extensive experiments show the
state-of-the-art ZSFD performance of our proposed method on two food datasets,
ZSFooD and UECFOOD-256. Moreover, SeeDS also maintains effectiveness on general
ZSD datasets, PASCAL VOC and MS COCO. The code and dataset can be found at
https://github.com/LanceZPF/SeeDS.
- Abstract(参考訳): 食品検出は、食品レコメンデーションや食事監視など、さまざまなマルチメディアアプリケーションをサポートする、食品コンピューティングの基本的なタスクになりつつある。
実世界のシナリオに対処するためには、ZSD(Zero-Shot Detection)と呼ばれる、トレーニング中に見えない新しい食品オブジェクトをローカライズし、認識する必要がある。
しかし、セマンティック属性とクラス内の特徴多様性の複雑さは、粒度の細かい食品の分類においてZSD法に課題をもたらす。
そこで本研究では,ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizing Module (S$^3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
s$^3$mは、具材や料理から複雑な食品属性の区別された意味表現を学習し、拡張された意味情報を用いて判別的な食品特徴を合成する。
rfddmは新しい拡散モデルを用いて多様化した領域特性を生成し、細粒度合成によりzsfdを強化している。
広汎な実験により,提案手法の2つの食品データセット(ZSFooDとUECFOOD-256)上での最先端のZSFD性能を示す。
さらに、SeeDSは一般的なZSDデータセット、PASCAL VOC、MS COCOでも有効性を維持する。
コードとデータセットはhttps://github.com/LanceZPF/SeeDSにある。
関連論文リスト
- Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection [37.866458336327184]
食品検出には、現実のシナリオをサポートするために、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)が必要である。
まず,ZSFD(Zero-Shot Food Detection)のタスクを,豊富な属性アノテーションを備えたFOWAデータセットによってベンチマークする。
本稿では,複雑な属性間の相互作用を利用して,きめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:32:35Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [102.53130531577892]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,食品認識,食材認識,レシピ生成,栄養推定,食品セグメンテーション,多ラウンド会話など,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - NutritionVerse-Synth: An Open Access Synthetically Generated 2D Food
Scene Dataset for Dietary Intake Estimation [71.22646949733833]
大規模な合成食品画像データセットであるNutritionVerse-Synth(NV-Synth)を紹介する。
NV-Synthは7,082枚の動的3Dシーンからレンダリングされた84,984枚のフォトリアリスティックな食事画像を含んでいる。
オープンソースで最大の合成食品データセットであるNV-Synthは、物理学に基づくシミュレーションの価値を強調している。
論文 参考訳(メタデータ) (2023-12-11T08:15:49Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection
Tasks [14.523433519237607]
食中毒は深刻なが予防可能な公衆衛生上の問題である。
効果的なアウトブレイク検出モデルを開発するためにラベル付きデータセットが不足している。
TWEET-FIDは、食品性疾患検出タスクのための、初めて公開された注釈付きデータセットである。
論文 参考訳(メタデータ) (2022-05-22T03:47:18Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - MCEN: Bridging Cross-Modal Gap between Cooking Recipes and Dish Images
with Latent Variable Model [28.649961369386148]
我々は、画像やテキストを同じ埋め込み空間に投影することで、モダリティ不変表現を学習するModality-Consistent Embedding Network(MCEN)を提案する。
本手法は, 学習中のモーダル間のアライメントを学習するが, 効率を考慮に入れた推定時間において, 異なるモーダルの埋め込みを独立に計算する。
論文 参考訳(メタデータ) (2020-04-02T16:00:10Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。