論文の概要: OSCAR: Object Status and Contextual Awareness for Recipes to Support Non-Visual Cooking
- arxiv url: http://arxiv.org/abs/2503.05962v1
- Date: Fri, 07 Mar 2025 22:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:21.524936
- Title: OSCAR: Object Status and Contextual Awareness for Recipes to Support Non-Visual Cooking
- Title(参考訳): OSCAR:非視覚的調理をサポートするための準備のためのオブジェクトの状態とコンテキスト認識
- Authors: Franklin Mingzhe Li, Kaitlyn Ng, Bin Zhu, Patrick Carrington,
- Abstract要約: 調理中のレシピに従うことは、視覚障害者にとって重要な課題であるが難しい課題である。
我々は、レシピの進捗追跡とコンテキスト認識フィードバックを提供する新しいアプローチであるOSCARを開発した。
我々は、YouTubeの調理ビデオ173本と現実世界の非視覚的調理ビデオ12本を用いて、OSCARのレシピをフォローする機能を評価した。
- 参考スコア(独自算出の注目度): 24.6085205199758
- License:
- Abstract: Following recipes while cooking is an important but difficult task for visually impaired individuals. We developed OSCAR (Object Status Context Awareness for Recipes), a novel approach that provides recipe progress tracking and context-aware feedback on the completion of cooking tasks through tracking object statuses. OSCAR leverages both Large-Language Models (LLMs) and Vision-Language Models (VLMs) to manipulate recipe steps, extract object status information, align visual frames with object status, and provide cooking progress tracking log. We evaluated OSCAR's recipe following functionality using 173 YouTube cooking videos and 12 real-world non-visual cooking videos to demonstrate OSCAR's capability to track cooking steps and provide contextual guidance. Our results highlight the effectiveness of using object status to improve performance compared to baseline by over 20% across different VLMs, and we present factors that impact prediction performance. Furthermore, we contribute a dataset of real-world non-visual cooking videos with step annotations as an evaluation benchmark.
- Abstract(参考訳): 調理中のレシピに従うことは、視覚障害者にとって重要な課題であるが難しい課題である。
我々は,レシピの進捗追跡と調理タスクの完了に対するコンテキスト認識フィードバックを提供する新しいアプローチであるOSCAR(Object Status Context Awareness for Recipes)を開発した。
OSCARは、LLM(Large-Language Model)とVLM(Vision-Language Model)の両方を活用して、レシピのステップを操作し、オブジェクトステータス情報を抽出し、ビジュアルフレームをオブジェクトステータスに調整し、調理進捗追跡ログを提供する。
我々は、OSCARのレシピに従って、173のYouTube料理ビデオと12の現実世界の非視覚料理ビデオを使用して、OSCARの調理手順を追跡し、コンテキストガイダンスを提供する能力を実証した。
本研究の結果は,VLM間でのベースラインよりも20%以上の性能向上を実現するために,オブジェクトの状態を用いることの有効性を強調し,予測性能に影響を与える要因を提示する。
さらに、ステップアノテーションを評価ベンチマークとして、実世界の非視覚的調理ビデオのデータセットをコントリビュートする。
関連論文リスト
- CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark [13.623338371949337]
スマートフォンで撮影した未編集のオーバヘッドビュービデオからなる新しいデータセットであるCOM Kitchensを提案する。
未編集のオーバヘッドビュービデオ(DVC-OV)上の新しいビデオ検索タスクOnRRと新しいビデオキャプションドメインDense Video Captioningを提案する。
本実験は,現在のWebビデオベースSOTA方式のタスク処理能力と限界を検証した。
論文 参考訳(メタデータ) (2024-08-05T07:00:10Z) - Adaptive Visual Imitation Learning for Robotic Assisted Feeding Across Varied Bowl Configurations and Food Types [17.835835270751176]
ロボット支援給餌(RAF)のための空間的注意モジュールを備えた新しい視覚模倣ネットワークを提案する。
本研究では,視覚認識と模倣学習を統合して,ロボットがスクーピング中に多様なシナリオを扱えるようにするためのフレームワークを提案する。
AVIL(adaptive visual mimicion learning, 適応的視覚模倣学習)と呼ばれる我々のアプローチは、異なるボウル構成にまたがる適応性と堅牢性を示す。
論文 参考訳(メタデータ) (2024-03-19T16:40:57Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z) - Classifying States of Cooking Objects Using Convolutional Neural Network [6.127963013089406]
主な目的は、調理プロセスをより簡単で安全にし、人間の福祉を創ることである。
ロボットは調理環境を理解し,特に調理対象の状態を正確に認識することが重要である。
このプロジェクトでは、料理物の状態をスクラッチから分類するための堅牢な深層畳み込みニューラルネットワークを設計するために、実験の一部が実施された。
論文 参考訳(メタデータ) (2021-04-30T22:26:40Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。