論文の概要: Rethinking Cooking State Recognition with Vision Transformers
- arxiv url: http://arxiv.org/abs/2212.08586v1
- Date: Fri, 16 Dec 2022 17:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 15:38:55.325124
- Title: Rethinking Cooking State Recognition with Vision Transformers
- Title(参考訳): 視覚変換器による調理状態認識の再考
- Authors: Akib Mohammed Khan, Alif Ashrafee, Reeshoon Sayera, Shahriar Ivan, and
Sabbir Ahmed
- Abstract要約: 料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To ensure proper knowledge representation of the kitchen environment, it is
vital for kitchen robots to recognize the states of the food items that are
being cooked. Although the domain of object detection and recognition has been
extensively studied, the task of object state classification has remained
relatively unexplored. The high intra-class similarity of ingredients during
different states of cooking makes the task even more challenging. Researchers
have proposed adopting Deep Learning based strategies in recent times, however,
they are yet to achieve high performance. In this study, we utilized the
self-attention mechanism of the Vision Transformer (ViT) architecture for the
Cooking State Recognition task. The proposed approach encapsulates the globally
salient features from images, while also exploiting the weights learned from a
larger dataset. This global attention allows the model to withstand the
similarities between samples of different cooking objects, while the employment
of transfer learning helps to overcome the lack of inductive bias by utilizing
pretrained weights. To improve recognition accuracy, several augmentation
techniques have been employed as well. Evaluation of our proposed framework on
the `Cooking State Recognition Challenge Dataset' has achieved an accuracy of
94.3%, which significantly outperforms the state-of-the-art.
- Abstract(参考訳): キッチン環境の適切な知識表現を確保するためには,調理中の食品の状態をキッチンロボットが認識することが不可欠である。
物体検出・認識の領域は広く研究されてきたが、対象状態分類の課題はいまだに解明されていない。
調理状態の異なる成分のクラス内類似度が高いため、作業はさらに困難になる。
研究者は近年、ディープラーニングベースの戦略の採用を提案しているが、ハイパフォーマンスには至っていない。
本研究では,料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己注意機構を利用した。
提案されたアプローチは、画像からグローバルにサルエントな特徴をカプセル化すると同時に、より大きなデータセットから得られた重みも活用する。
このグローバルな注意によって、モデルは異なる調理対象のサンプル間の類似性に耐えることができる一方、転校学習の雇用は、事前訓練された重みを利用して誘導バイアスの欠如を克服するのに役立つ。
認識精度を向上させるため、いくつかの拡張技術も採用されている。
The Cooking State Recognition Challenge Dataset' で提案したフレームワークの評価は94.3%の精度を達成し,最先端技術よりも大幅に向上した。
関連論文リスト
- Computer Vision in the Food Industry: Accurate, Real-time, and Automatic Food Recognition with Pretrained MobileNetV2 [1.6590638305972631]
本研究は,16643画像からなる公共食品11データセット上での食品認識において,効率的かつ高速な事前訓練されたMobileNetV2モデルを用いる。
また、データセット理解、転送学習、データ拡張、正規化、動的学習率、ハイパーパラメータチューニング、さまざまなサイズの画像の考慮など、さまざまな技術を活用して、パフォーマンスと堅牢性を高めている。
より単純な構造を持ち、深層学習領域の深部・密度モデルと比較して訓練可能なパラメータが少ない光モデルを採用するが、短時間で計算可能な精度を達成した。
論文 参考訳(メタデータ) (2024-05-19T17:20:20Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Mobile Food Recognition System for Dietary Assessment [6.982738885923204]
我々は,生活支援のための食品認識アプリケーションの開発に焦点をあてる。
このタスクにMobilenet-v2アーキテクチャを使うことは、正確性とメモリ使用量の両方において有益である。
開発されたモバイルアプリケーションは、画像を介して自動食品認識において視覚障害者に役立てる可能性がある。
論文 参考訳(メタデータ) (2022-04-20T12:49:36Z) - Classifying States of Cooking Objects Using Convolutional Neural Network [6.127963013089406]
主な目的は、調理プロセスをより簡単で安全にし、人間の福祉を創ることである。
ロボットは調理環境を理解し,特に調理対象の状態を正確に認識することが重要である。
このプロジェクトでは、料理物の状態をスクラッチから分類するための堅牢な深層畳み込みニューラルネットワークを設計するために、実験の一部が実施された。
論文 参考訳(メタデータ) (2021-04-30T22:26:40Z) - Large Scale Visual Food Recognition [43.43598316339732]
これは2000のカテゴリと100万以上のイメージを持つ、最大規模の食品認識データセットです。
food2kはそれらをカテゴリとイメージの両方で1桁ずつバイパスする。
食品認識のためのディーププログレッシブ領域強化ネットワークを提案します。
論文 参考訳(メタデータ) (2021-03-30T06:41:42Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。