論文の概要: SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection
- arxiv url: http://arxiv.org/abs/2310.04689v1
- Date: Sat, 7 Oct 2023 05:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:38:20.602776
- Title: SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection
- Title(参考訳): SeeDS: ゼロショット食品検出のためのセマンティック分離拡散合成装置
- Authors: Pengfei Zhou, Weiqing Min, Yang Zhang, Jiajun Song, Ying Jin and
Shuqiang Jiang
- Abstract要約: ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成器(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizer Module (S$3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
- 参考スコア(独自算出の注目度): 38.57712277980073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food detection is becoming a fundamental task in food computing that supports
various multimedia applications, including food recommendation and dietary
monitoring. To deal with real-world scenarios, food detection needs to localize
and recognize novel food objects that are not seen during training, demanding
Zero-Shot Detection (ZSD). However, the complexity of semantic attributes and
intra-class feature diversity poses challenges for ZSD methods in
distinguishing fine-grained food classes. To tackle this, we propose the
Semantic Separable Diffusion Synthesizer (SeeDS) framework for Zero-Shot Food
Detection (ZSFD). SeeDS consists of two modules: a Semantic Separable
Synthesizing Module (S$^3$M) and a Region Feature Denoising Diffusion Model
(RFDDM). The S$^3$M learns the disentangled semantic representation for complex
food attributes from ingredients and cuisines, and synthesizes discriminative
food features via enhanced semantic information. The RFDDM utilizes a novel
diffusion model to generate diversified region features and enhances ZSFD via
fine-grained synthesized features. Extensive experiments show the
state-of-the-art ZSFD performance of our proposed method on two food datasets,
ZSFooD and UECFOOD-256. Moreover, SeeDS also maintains effectiveness on general
ZSD datasets, PASCAL VOC and MS COCO. The code and dataset can be found at
https://github.com/LanceZPF/SeeDS.
- Abstract(参考訳): 食品検出は、食品レコメンデーションや食事監視など、さまざまなマルチメディアアプリケーションをサポートする、食品コンピューティングの基本的なタスクになりつつある。
実世界のシナリオに対処するためには、ZSD(Zero-Shot Detection)と呼ばれる、トレーニング中に見えない新しい食品オブジェクトをローカライズし、認識する必要がある。
しかし、セマンティック属性とクラス内の特徴多様性の複雑さは、粒度の細かい食品の分類においてZSD法に課題をもたらす。
そこで本研究では,ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizing Module (S$^3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
s$^3$mは、具材や料理から複雑な食品属性の区別された意味表現を学習し、拡張された意味情報を用いて判別的な食品特徴を合成する。
rfddmは新しい拡散モデルを用いて多様化した領域特性を生成し、細粒度合成によりzsfdを強化している。
広汎な実験により,提案手法の2つの食品データセット(ZSFooDとUECFOOD-256)上での最先端のZSFD性能を示す。
さらに、SeeDSは一般的なZSDデータセット、PASCAL VOC、MS COCOでも有効性を維持する。
コードとデータセットはhttps://github.com/LanceZPF/SeeDSにある。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Multi-modal Food Recommendation using Clustering and Self-supervised Learning [27.74592587848116]
CLUSSLは,クラスタリングと自己教師型学習を活用する新しい食品レコメンデーションフレームワークである。
CLUSSLは、各モダリティに特有のグラフを離散的/連続的な特徴で定式化し、意味的特徴を構造的表現に変換する。
異なるユニモーダルグラフから導出されるレシピ表現間の独立性を促進するために,自己指導型学習目標を提案する。
論文 参考訳(メタデータ) (2024-06-27T07:45:17Z) - Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection [37.866458336327184]
食品検出には、現実のシナリオをサポートするために、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)が必要である。
まず,ZSFD(Zero-Shot Food Detection)のタスクを,豊富な属性アノテーションを備えたFOWAデータセットによってベンチマークする。
本稿では,複雑な属性間の相互作用を利用して,きめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:32:35Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Cross-modal Retrieval and Synthesis (X-MRS): Closing the modality gap in
shared subspace [21.33710150033949]
本稿では,食品画像からレシピへの検索問題に対処するために,共有サブスペース学習のためのシンプルで斬新なアーキテクチャを提案する。
公開Recipe1Mデータセットの実験的解析により,提案手法を用いて学習した部分空間が,現在の最先端技術よりも優れていることが示された。
学習した部分空間の表現力を示すために,レシピの埋め込みを前提とした生成食品画像合成モデルを提案する。
論文 参考訳(メタデータ) (2020-12-02T17:27:00Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。