論文の概要: Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection
- arxiv url: http://arxiv.org/abs/2402.09242v1
- Date: Wed, 14 Feb 2024 15:32:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 14:56:09.366723
- Title: Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection
- Title(参考訳): 実世界のゼロショット食品検出のための知識強調機能
- Authors: Pengfei Zhou, Weiqing Min, Jiajun Song, Yang Zhang, Shuqiang Jiang
- Abstract要約: 食品検出には、現実のシナリオをサポートするために、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)が必要である。
まず,ZSFD(Zero-Shot Food Detection)のタスクを,豊富な属性アノテーションを備えたFOWAデータセットによってベンチマークする。
本稿では,複雑な属性間の相互作用を利用して,きめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
- 参考スコア(独自算出の注目度): 37.866458336327184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Food computing brings various perspectives to computer vision like
vision-based food analysis for nutrition and health. As a fundamental task in
food computing, food detection needs Zero-Shot Detection (ZSD) on novel unseen
food objects to support real-world scenarios, such as intelligent kitchens and
smart restaurants. Therefore, we first benchmark the task of Zero-Shot Food
Detection (ZSFD) by introducing FOWA dataset with rich attribute annotations.
Unlike ZSD, fine-grained problems in ZSFD like inter-class similarity make
synthesized features inseparable. The complexity of food semantic attributes
further makes it more difficult for current ZSD methods to distinguish various
food categories. To address these problems, we propose a novel framework ZSFDet
to tackle fine-grained problems by exploiting the interaction between complex
attributes. Specifically, we model the correlation between food categories and
attributes in ZSFDet by multi-source graphs to provide prior knowledge for
distinguishing fine-grained features. Within ZSFDet, Knowledge-Enhanced Feature
Synthesizer (KEFS) learns knowledge representation from multiple sources (e.g.,
ingredients correlation from knowledge graph) via the multi-source graph
fusion. Conditioned on the fusion of semantic knowledge representation, the
region feature diffusion model in KEFS can generate fine-grained features for
training the effective zero-shot detector. Extensive evaluations demonstrate
the superior performance of our method ZSFDet on FOWA and the widely-used food
dataset UECFOOD-256, with significant improvements by 1.8% and 3.7% ZSD mAP
compared with the strong baseline RRFS. Further experiments on PASCAL VOC and
MS COCO prove that enhancement of the semantic knowledge can also improve the
performance on general ZSD. Code and dataset are available at
https://github.com/LanceZPF/KEFS.
- Abstract(参考訳): 食品コンピューティングは、視覚に基づく栄養と健康に関する食品分析のようなコンピュータビジョンに様々な視点をもたらす。
食品処理の基本的な課題として、インテリジェントキッチンやスマートレストランなどの現実的なシナリオをサポートするために、食品検出は、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)を必要とする。
そこで我々はまず,属性アノテーションの豊富なfowaデータセットを導入することで,ゼロショット食品検出(zsfd)のタスクをベンチマークした。
ZSDとは異なり、クラス間類似性のようなZSFDのきめ細かい問題は、合成された特徴を分離できない。
食品意味属性の複雑さにより、現在のZSD法では様々な食品カテゴリーを区別することがより困難になる。
これらの問題に対処するために,複雑な属性間の相互作用を利用してきめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
具体的には,zsfdetの食品カテゴリと属性の相関を多元グラフでモデル化し,粒度の細かい特徴を識別するための事前知識を提供する。
ZSFDet内では、知識強化機能合成器(KEFS)は複数の情報源(例えば知識グラフからの成分相関)から知識表現をマルチソースグラフ融合を通じて学習する。
意味的知識表現の融合を前提として、KEFSの領域特徴拡散モデルは、効率的なゼロショット検出器を訓練するためのきめ細かい特徴を生成することができる。
FOWA法と広範に使用されている食品データセットであるUECFOOD-256におけるZSFDetの性能は,強いベースラインRRFSに比べて1.8%,3.7%向上した。
PASCAL VOCとMS COCOに関するさらなる実験は、意味知識の強化が一般的なZSDの性能を向上させることを証明している。
コードとデータセットはhttps://github.com/lancezpf/kefsで入手できる。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - Multi-modal Food Recommendation using Clustering and Self-supervised Learning [27.74592587848116]
CLUSSLは,クラスタリングと自己教師型学習を活用する新しい食品レコメンデーションフレームワークである。
CLUSSLは、各モダリティに特有のグラフを離散的/連続的な特徴で定式化し、意味的特徴を構造的表現に変換する。
異なるユニモーダルグラフから導出されるレシピ表現間の独立性を促進するために,自己指導型学習目標を提案する。
論文 参考訳(メタデータ) (2024-06-27T07:45:17Z) - SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection [38.57712277980073]
ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成器(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizer Module (S$3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-10-07T05:29:18Z) - Towards Building a Food Knowledge Graph for Internet of Food [66.57235827087092]
食品分類から食品分類、食品知識グラフまで、食品知識組織の進化を概観する。
食品知識グラフは、食品検索と質問回答(QA)、パーソナライズされた食事レコメンデーション、食品分析、可視化において重要な役割を果たす。
食品知識グラフの今後の方向性は、マルチモーダル食品知識グラフや食品インテリジェンスなど、いくつかの分野をカバーする。
論文 参考訳(メタデータ) (2021-07-13T06:26:53Z) - Visual Aware Hierarchy Based Food Recognition [10.194167945992938]
本稿では,コンボリューショナルニューラルネットワーク(CNN)をバックボーンアーキテクチャとして用いた2段階の食品認識システムを提案する。
食品ローカライゼーションのステップは、食品領域を識別するFaster R-CNN法の実装に基づいている。
食品分類工程では、視覚的に類似した食品カテゴリーを自動的にまとめて階層構造を生成することができる。
論文 参考訳(メタデータ) (2020-12-06T20:25:31Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。