論文の概要: Deep Learning-Driven Multimodal Detection and Movement Analysis of Objects in Culinary
- arxiv url: http://arxiv.org/abs/2509.00033v2
- Date: Thu, 18 Sep 2025 05:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 15:20:15.423236
- Title: Deep Learning-Driven Multimodal Detection and Movement Analysis of Objects in Culinary
- Title(参考訳): 食堂内物体の深層学習駆動型マルチモーダル検出と運動解析
- Authors: Tahoshin Alam Ishat, Mohammad Abdul Qayum,
- Abstract要約: 本研究は、既存のモデルについて検討し、YOLOv8セグメンテーションモデル、手指の動きシーケンスに基づいて訓練されたLSTMモデルとASR(Whisper-base)を組み合わせた微調整を行う。
すべてのデータは著者によって収集され、複雑で困難な環境でベストを尽くす、堅牢なタスク特定システムを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This is a research exploring existing models and fine tuning them to combine a YOLOv8 segmentation model, a LSTM model trained on hand point motion sequence and a ASR (whisper-base) to extract enough data for a LLM (TinyLLaMa) to predict the recipe and generate text creating a step by step guide for the cooking procedure. All the data were gathered by the author for a robust task specific system to perform best in complex and challenging environments proving the extension and endless application of computer vision in daily activities such as kitchen work. This work extends the field for many more crucial task of our day to day life.
- Abstract(参考訳): 本研究は, 既存のモデルを探索し, YOLOv8セグメンテーションモデル, 手指の動きシーケンスに基づいて訓練されたLSTMモデル, およびALM(TinyLLaMa)のための十分なデータを抽出し, レシピを予測し, 調理手順のステップガイドを作成するためのテキストを生成するための ASR (whisper-base) を組み合わせた微調整を行う。
すべてのデータは著者によって収集され、キッチンワークのような日々の作業においてコンピュータビジョンの拡張と無限の応用を証明し、複雑で困難な環境で最善を尽くすための、堅牢なタスク特化システムを実現した。
この作業は、私たちの日々の多くの重要なタスクのために、フィールドを拡張します。
関連論文リスト
- LAM SIMULATOR: Advancing Data Generation for Large Action Model Training via Online Exploration and Trajectory Feedback [121.78866929908871]
AIエージェントのための大規模アクションモデル(LAM)は、素晴らしいポテンシャルを提供するが、高品質なトレーニングデータを必要とするため、課題に直面している。
LAM SIMULATORは,高品質なフィードバックによるエージェントタスクのオンライン探索を目的とした総合的なフレームワークである。
本フレームワークは,動的タスククエリジェネレータ,広範囲なツールコレクション,および大規模言語モデル(LLM)エージェントがツールを呼び出し,リアルタイムフィードバックを受信できる対話型環境を備えている。
論文 参考訳(メタデータ) (2025-06-02T22:36:02Z) - Survey of Large Multimodal Model Datasets, Application Categories and Taxonomy [2.294223504228228]
人工知能の急速に発展する分野であるマルチモーダル学習は、より汎用的で堅牢なシステムの構築を目指している。
多くの感覚を通じて情報を同化する人間の能力に触発され、テキストからビデオへの変換、視覚的質問応答、画像キャプションなどの応用が可能となる。
マルチモーダル言語モデル(MLLM)をサポートするデータセットの最近の発展について概説する。
論文 参考訳(メタデータ) (2024-12-23T18:15:19Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - UniDM: A Unified Framework for Data Manipulation with Large Language Models [66.61466011795798]
大規模言語モデル(LLM)は複数のデータ操作タスクを解決する。
LLMはパフォーマンス面では明るい利点を示すが、それぞれのタスクに合うようにカスタマイズされた設計が必要である。
データ操作タスクを処理するための新しいパラダイムを確立する統一フレームワークUniDMを提案する。
論文 参考訳(メタデータ) (2024-05-10T14:44:04Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - GenSim: Generating Robotic Simulation Tasks via Large Language Models [34.79613485106202]
GenSimは、リッチなシミュレーション環境とエキスパートのデモを自動的に生成することを目指している。
既存のベンチマークを10倍から100以上のタスクに拡張するために、GPT4を使用します。
最小限のsim-to-real適応により、GPT4生成したシミュレーションタスクで事前訓練されたマルチタスクポリシーは、現実世界で目に見えないロングホライゾンタスクへのより強力な転送を示す。
論文 参考訳(メタデータ) (2023-10-02T17:23:48Z) - Diffusion Model is an Effective Planner and Data Synthesizer for
Multi-Task Reinforcement Learning [101.66860222415512]
Multi-Task Diffusion Model (textscMTDiff) は、トランスフォーマーのバックボーンを組み込んだ拡散に基づく手法であり、生成計画とデータ合成のための素早い学習を行う。
生成計画において、textscMTDiffはMeta-World上の50のタスクとMaze2D上の8のマップで最先端のアルゴリズムより優れています。
論文 参考訳(メタデータ) (2023-05-29T05:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。