論文の概要: SalientFusion: Context-Aware Compositional Zero-Shot Food Recognition
- arxiv url: http://arxiv.org/abs/2509.03873v1
- Date: Thu, 04 Sep 2025 04:22:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.047544
- Title: SalientFusion: Context-Aware Compositional Zero-Shot Food Recognition
- Title(参考訳): SalientFusion: コンテクストを考慮したゼロショット食品認識
- Authors: Jiajun Song, Xiaoou Liu,
- Abstract要約: 合成ゼロショット食品認識(CZSFR)の課題を提案する。
冗長な背景情報は、モデルが意味のある食品の特徴を学習することを妨げる。
主食と副菜の間の役割の混同は、誤分類につながる。
単一の属性における科学者のバイアスは、理解の混乱につながる可能性がある。
- 参考スコア(独自算出の注目度): 4.982130518684668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food recognition has gained significant attention, but the rapid emergence of new dishes requires methods for recognizing unseen food categories, motivating Zero-Shot Food Learning (ZSFL). We propose the task of Compositional Zero-Shot Food Recognition (CZSFR), where cuisines and ingredients naturally align with attributes and objects in Compositional Zero-Shot learning (CZSL). However, CZSFR faces three challenges: (1) Redundant background information distracts models from learning meaningful food features, (2) Role confusion between staple and side dishes leads to misclassification, and (3) Semantic bias in a single attribute can lead to confusion of understanding. Therefore, we propose SalientFusion, a context-aware CZSFR method with two components: SalientFormer, which removes background redundancy and uses depth features to resolve role confusion; DebiasAT, which reduces the semantic bias by aligning prompts with visual features. Using our proposed benchmarks, CZSFood-90 and CZSFood-164, we show that SalientFusion achieves state-of-the-art results on these benchmarks and the most popular general datasets for the general CZSL. The code is avaliable at https://github.com/Jiajun-RUC/SalientFusion.
- Abstract(参考訳): 食品認識は注目されているが、新しい料理の急速な出現には、目に見えない食品カテゴリーを認識し、ゼロショット食品学習(ZSFL)を動機付ける方法が必要である。
本稿では,CZSL(コンポジションゼロショット食品認識)の課題として,料理や材料が自然に属性や対象と整合する「コンポジションゼロショット食品認識(CZSFR)」を提案する。
しかし、CZSFRは、(1)背景の冗長な情報は、意味のある食品の特徴の学習からモデルを逸脱させ、(2)主食と副食のロールの混同は、誤分類を招き、(3)単一属性のセマンティックバイアスは、理解の混乱を引き起こす。
そこで,SalientFusionを提案する。SalientFormerは背景の冗長性を排除し,役割の混乱を解決するために奥行き特徴を利用する。
提案するベンチマーク CZSFood-90 と CZSFood-164 を用いて,SalientFusion がこれらのベンチマークおよび一般的な CZSL の一般的なデータセットの最先端化を実現していることを示す。
コードはhttps://github.com/Jiajun-RUC/SalientFusion.comにある。
関連論文リスト
- SketchFusion: Learning Universal Sketch Features through Fusing Foundation Models [80.90808879991182]
体系的な分析に基づいて、スケッチ理解のための基礎モデルの2つの基本的な限界を明らかにする。
SDとCLIPを戦略的に組み合わせることで,これらの制約に対処する。
CLIPの機能をSDのデノナイズプロセスに動的に注入し,セマンティックレベルでの機能を適応的に集約することにより,スケッチ検索における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-18T10:47:46Z) - OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - Synthesizing Knowledge-enhanced Features for Real-world Zero-shot Food
Detection [37.866458336327184]
食品検出には、現実のシナリオをサポートするために、新しい見えない食品オブジェクトに対してゼロショット検出(ZSD)が必要である。
まず,ZSFD(Zero-Shot Food Detection)のタスクを,豊富な属性アノテーションを備えたFOWAデータセットによってベンチマークする。
本稿では,複雑な属性間の相互作用を利用して,きめ細かい問題に対処する新しいフレームワークZSFDetを提案する。
論文 参考訳(メタデータ) (2024-02-14T15:32:35Z) - SeeDS: Semantic Separable Diffusion Synthesizer for Zero-shot Food
Detection [38.57712277980073]
ゼロショット食品検出(ZSFD)のためのセマンティック分離拡散合成器(SeeDS)フレームワークを提案する。
Semantic Separable Synthesizer Module (S$3$M) と Region Feature Denoising Diffusion Model (RFDDM) の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-10-07T05:29:18Z) - Hierarchical Visual Primitive Experts for Compositional Zero-Shot
Learning [52.506434446439776]
合成ゼロショット学習(CZSL)は、既知のプリミティブ(属性とオブジェクト)の事前知識で構成を認識することを目的としている。
このような問題に対処するために,コンポジショントランスフォーマー(CoT)と呼ばれるシンプルでスケーラブルなフレームワークを提案する。
提案手法は,MIT-States,C-GQA,VAW-CZSLなど,いくつかのベンチマークでSoTA性能を実現する。
論文 参考訳(メタデータ) (2023-08-08T03:24:21Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - Cross-modal Representation Learning for Zero-shot Action Recognition [67.57406812235767]
我々は、ゼロショット動作認識(ZSAR)のためのビデオデータとテキストラベルを共同で符号化するクロスモーダルトランスフォーマーベースのフレームワークを提案する。
我々のモデルは概念的に新しいパイプラインを使用し、視覚的表現と視覚的意味的関連をエンドツーエンドで学習する。
実験結果から,本モデルはZSARの芸術的状況に大きく改善され,UCF101,HMDB51,ActivityNetベンチマークデータセット上でトップ1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-03T17:39:27Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。