論文の概要: Deep Learning-Driven Multimodal Detection and Movement Analysis of Objects in Culinary
- arxiv url: http://arxiv.org/abs/2509.00033v1
- Date: Thu, 21 Aug 2025 14:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.257843
- Title: Deep Learning-Driven Multimodal Detection and Movement Analysis of Objects in Culinary
- Title(参考訳): 食堂内物体の深層学習駆動型マルチモーダル検出と運動解析
- Authors: Tahoshin Alam Ishat,
- Abstract要約: 本研究は、既存のモデルについて検討し、YOLOv8セグメンテーションモデル、手指の動きシーケンスに基づいて訓練されたLSTMモデルとASR(Whisper-base)を組み合わせた微調整を行う。
すべてのデータは著者によって収集され、複雑で困難な環境でベストを尽くす、堅牢なタスク特定システムを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a research exploring existing models and fine tuning them to combine a YOLOv8 segmentation model, a LSTM model trained on hand point motion sequence and a ASR (whisper-base) to extract enough data for a LLM (TinyLLaMa) to predict the recipe and generate text creating a step by step guide for the cooking procedure. All the data were gathered by the author for a robust task specific system to perform best in complex and challenging environments proving the extension and endless application of computer vision in daily activities such as kitchen work. This work extends the field for many more crucial task of our day to day life.
- Abstract(参考訳): 本研究は, 既存のモデルを探索し, YOLOv8セグメンテーションモデル, 手指の動きシーケンスに基づいて訓練されたLSTMモデル, およびALM(TinyLLaMa)のための十分なデータを抽出し, レシピを予測し, 調理手順のステップガイドを作成するためのテキストを生成するための ASR (whisper-base) を組み合わせた微調整を行う。
すべてのデータは著者によって収集され、キッチンワークのような日々の作業においてコンピュータビジョンの拡張と無限の応用を証明し、複雑で困難な環境で最善を尽くすための、堅牢なタスク特化システムを実現した。
この作業は、私たちの日々の多くの重要なタスクのために、フィールドを拡張します。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。