Fugu-MT 論文翻訳(概要): A SAM based Tool for Semi-Automatic Food Annotation

論文の概要: A SAM based Tool for Semi-Automatic Food Annotation

arxiv url: http://arxiv.org/abs/2410.19756v1
Date: Fri, 11 Oct 2024 11:50:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:40.546763
Title: A SAM based Tool for Semi-Automatic Food Annotation
Title（参考訳）: セミオートマチックな食品アノテーションのためのSAMツール
Authors: Lubnaa Abdur Rahman, Ioannis Papathanail, Lorenzo Brigato, Stavroula Mougiakakou,
Abstract要約: SAM(Segment Anything Model)を利用した半自動食品画像アノテーションツールのデモを紹介する。このツールは、ユーザインタラクションを通じて、即時ベースの食品セグメンテーションを可能にし、ユーザエンゲージメントを促進し、食事イメージ内の食品のさらなる分類を可能にする。また、食品画像のセグメンテーションに特化したViT-Bバックボーンを備えた、MealSAMと呼ばれるSAMのマスクデコーダの微調整版もリリースしました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The advancement of artificial intelligence (AI) in food and nutrition research is hindered by a critical bottleneck: the lack of annotated food data. Despite the rise of highly efficient AI models designed for tasks such as food segmentation and classification, their practical application might necessitate proficiency in AI and machine learning principles, which can act as a challenge for non-AI experts in the field of nutritional sciences. Alternatively, it highlights the need to translate AI models into user-friendly tools that are accessible to all. To address this, we present a demo of a semi-automatic food image annotation tool leveraging the Segment Anything Model (SAM). The tool enables prompt-based food segmentation via user interactions, promoting user engagement and allowing them to further categorise food items within meal images and specify weight/volume if necessary. Additionally, we release a fine-tuned version of SAM's mask decoder, dubbed MealSAM, with the ViT-B backbone tailored specifically for food image segmentation. Our objective is not only to contribute to the field by encouraging participation, collaboration, and the gathering of more annotated food data but also to make AI technology available for a broader audience by translating AI into practical tools.
Abstract（参考訳）: 食品・栄養研究における人工知能(AI)の進歩は、注釈付き食品データの欠如という重大なボトルネックによって妨げられている。食品のセグメンテーションや分類などのタスクのために設計された高効率なAIモデルの台頭にもかかわらず、その実践的応用はAIと機械学習の原則の熟練を必要とする可能性がある。あるいは、AIモデルを誰でもアクセスできるユーザーフレンドリーなツールに変換する必要性を強調している。そこで本研究では,Segment Anything Model(SAM)を利用した半自動食品画像アノテーションツールのデモを紹介する。このツールは、ユーザインタラクションによる即時的な食品セグメンテーションを可能にし、ユーザエンゲージメントを促進し、食事画像内の食品を更に分類し、必要に応じて重量/量を指定することができる。さらに、食品画像のセグメンテーションに特化したViT-Bバックボーンを備えた、MealSAMと呼ばれるSAMのマスクデコーダの微調整版をリリースする。私たちの目標は、参加、コラボレーション、より注釈付けされた食品データの収集を奨励することでこの分野に貢献することだけでなく、AIを実用的なツールに翻訳することで、幅広い聴衆にAI技術を利用できるようにすることです。

関連論文リスト

MetaFood3D: 3D Food Dataset with Nutrition Values [52.16894900096017]
このデータセットは、131のカテゴリにまたがって、743の精細にスキャンされ、ラベル付けされた3D食品オブジェクトで構成されている。我々のMetaFood3Dデータセットはクラス内の多様性を重視しており、テクスチャメッシュファイル、RGB-Dビデオ、セグメンテーションマスクなどのリッチなモダリティを含んでいる。
論文参考訳（メタデータ） (2024-09-03T15:02:52Z)
Shape-Preserving Generation of Food Images for Automatic Dietary Assessment [1.602820210496921]
条件付き食品画像生成のための簡単なGANベースのニューラルネットワークアーキテクチャを提案する。生成された画像中の食品や容器の形状は、参照入力画像の形状とよく似ている。
論文参考訳（メタデータ） (2024-08-23T20:18:51Z)
RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。 Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文参考訳（メタデータ） (2024-07-17T16:49:34Z)
Computer Vision in the Food Industry: Accurate, Real-time, and Automatic Food Recognition with Pretrained MobileNetV2 [1.6590638305972631]
本研究は,16643画像からなる公共食品11データセット上での食品認識において,効率的かつ高速な事前訓練されたMobileNetV2モデルを用いる。また、データセット理解、転送学習、データ拡張、正規化、動的学習率、ハイパーパラメータチューニング、さまざまなサイズの画像の考慮など、さまざまな技術を活用して、パフォーマンスと堅牢性を高めている。より単純な構造を持ち、深層学習領域の深部・密度モデルと比較して訓練可能なパラメータが少ない光モデルを採用するが、短時間で計算可能な精度を達成した。
論文参考訳（メタデータ） (2024-05-19T17:20:20Z)
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文参考訳（メタデータ） (2023-12-22T11:56:22Z)
From Plate to Production: Artificial Intelligence in Modern Consumer-Driven Food Systems [32.55158589420258]
世界の食料システムは、需要が増大する中で、供給と栄養価の高いダイエットに直面している。人工知能の出現は、個人の選択革命をもたらし、AIによる個人による決定が食品システムを変える。本稿では,食品分野におけるAIの約束と課題について考察する。
論文参考訳（メタデータ） (2023-11-04T13:13:44Z)
NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文参考訳（メタデータ） (2023-09-14T13:29:41Z)
FIRE: Food Image to REcipe generation [10.45344523054623]
フードコンピューティングは、食品画像のレシピ情報を自律的に生成できるエンドツーエンドのインテリジェントシステムを開発することを目的としている。本稿では,食品コンピューティング分野におけるレシピ生成に適した新しい手法であるFIREを提案する。本稿では、FIREと大規模言語モデルのプロンプトを統合することの恩恵を享受できる2つの実用的なアプリケーションを紹介する。
論文参考訳（メタデータ） (2023-08-28T08:14:20Z)
Food Image Classification and Segmentation with Attention-based Multiple Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文参考訳（メタデータ） (2023-08-22T13:59:47Z)
FoodSAM: Any Food Segmentation [10.467966270491228]
本稿では,SAM生成マスクにおけるクラス固有の情報の欠如に対処する新しいフレームワークであるFoodSAMを提案する。 FoodSAMは、粗いセマンティックマスクとSAM生成マスクを統合し、セマンティックセマンティクスの品質を高める。 FoodSAMは、食品画像の例、パノプティクス、即時セグメンテーションを達成するための最初の作業である。
論文参考訳（メタデータ） (2023-08-11T04:42:10Z)
Transferring Knowledge for Food Image Segmentation using Transformers and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。 1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。 2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。 BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文参考訳（メタデータ） (2023-06-15T15:38:10Z)
Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文参考訳（メタデータ） (2020-03-09T07:41:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。