論文の概要: Exploring Object Status Recognition for Recipe Progress Tracking in Non-Visual Cooking
- arxiv url: http://arxiv.org/abs/2507.03330v1
- Date: Fri, 04 Jul 2025 06:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.690046
- Title: Exploring Object Status Recognition for Recipe Progress Tracking in Non-Visual Cooking
- Title(参考訳): 非視覚的調理における準備進行追跡のための物体状態認識の探索
- Authors: Franklin Mingzhe Li, Kaitlyn Ng, Bin Zhu, Patrick Carrington,
- Abstract要約: 我々は、非視覚的調理におけるレシピの進行追跡を可能にするために、オブジェクトの状態認識を利用する技術パイプラインであるOSCAR(Object Status Context Awareness for Recipes)を提案する。
OSCARはレシピ解析、オブジェクトの状態抽出、調理ステップとの視覚的アライメント、リアルタイムステップトラッキングをサポートするための時系列モデリングを統合している。
その結果、オブジェクトの状態は視覚言語モデル間でのステップ予測精度を一貫して改善し、実環境における性能に影響を及ぼす重要な要因を明らかにした。
- 参考スコア(独自算出の注目度): 24.6085205199758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cooking plays a vital role in everyday independence and well-being, yet remains challenging for people with vision impairments due to limited support for tracking progress and receiving contextual feedback. Object status - the condition or transformation of ingredients and tools - offers a promising but underexplored foundation for context-aware cooking support. In this paper, we present OSCAR (Object Status Context Awareness for Recipes), a technical pipeline that explores the use of object status recognition to enable recipe progress tracking in non-visual cooking. OSCAR integrates recipe parsing, object status extraction, visual alignment with cooking steps, and time-causal modeling to support real-time step tracking. We evaluate OSCAR on 173 instructional videos and a real-world dataset of 12 non-visual cooking sessions recorded by BLV individuals in their homes. Our results show that object status consistently improves step prediction accuracy across vision-language models, and reveal key factors that impact performance in real-world conditions, such as implicit tasks, camera placement, and lighting. We contribute the pipeline of context-aware recipe progress tracking, an annotated real-world non-visual cooking dataset, and design insights to guide future context-aware assistive cooking systems.
- Abstract(参考訳): 料理は日常生活の自立と幸福において重要な役割を担っているが、進捗の追跡や文脈フィードバックの受け取りに制限があるため、視力障害のある人にとっては依然として困難である。
オブジェクトの状態 - 材料やツールの状態や変換 - は、コンテキスト対応の調理支援のための、有望だが未調査の基盤を提供する。
本稿では、非視覚的調理におけるレシピ進行追跡を可能にするために、オブジェクトの状態認識を利用した技術パイプラインであるOSCAR(Object Status Context Awareness for Recipes)を提案する。
OSCARはレシピ解析、オブジェクトの状態抽出、調理ステップとの視覚的アライメント、リアルタイムステップトラッキングをサポートするための時系列モデリングを統合している。
我々は、家庭内のBLV個人によって記録された173の指導ビデオと12の非視覚的調理セッションの実際のデータセットについてOSCARを評価した。
その結果,オブジェクトの状態は視覚言語モデル間でのステップ予測精度を一貫して改善し,暗黙のタスクやカメラ配置,照明といった実環境の性能に影響を及ぼす重要な要因を明らかにした。
我々は、コンテキスト対応レシピ進捗追跡のパイプライン、注釈付き実世界の非視覚的調理データセット、および将来のコンテキスト対応調理支援システムをガイドするためのデザインインサイトをコントリビュートする。
関連論文リスト
- VisualChef: Generating Visual Aids in Cooking via Mask Inpainting [50.84305074983752]
我々は,調理シナリオに適したコンテキスト視覚支援を生成するVisualChefを紹介する。
初期フレームと指定されたアクションが与えられた後、VisualChefはアクションの実行と結果のオブジェクトの外観の両方を描写した画像を生成する。
3つのエゴセントリックなビデオデータセット上でVisualChefを定量的に定性的に評価し、最先端の手法による改善を示す。
論文 参考訳(メタデータ) (2025-06-23T12:23:21Z) - OSCAR: Object Status and Contextual Awareness for Recipes to Support Non-Visual Cooking [24.6085205199758]
調理中のレシピに従うことは、視覚障害者にとって重要な課題であるが難しい課題である。
我々は、レシピの進捗追跡とコンテキスト認識フィードバックを提供する新しいアプローチであるOSCARを開発した。
我々は、YouTubeの調理ビデオ173本と現実世界の非視覚的調理ビデオ12本を用いて、OSCARのレシピをフォローする機能を評価した。
論文 参考訳(メタデータ) (2025-03-07T22:03:21Z) - Object-Centric Temporal Consistency via Conditional Autoregressive Inductive Biases [69.46487306858789]
Conditional Autoregressive Slot Attention (CA-SA) は、ビデオ中心の視覚タスクにおいて抽出されたオブジェクト中心の表現の時間的一貫性を高めるフレームワークである。
本稿では,提案手法が下流タスクのベースラインよりも優れていることを示す定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-10-21T07:44:44Z) - ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Continuous Object State Recognition for Cooking Robots Using Pre-Trained
Vision-Language Models and Black-box Optimization [18.41474014665171]
本稿では,ロボットを調理する際の食品の状態変化を音声言語で認識する手法を提案する。
各テキストの重み付けを調整することで、より正確で堅牢な連続状態認識を実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-13T04:45:40Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z) - Embodied Visual Active Learning for Semantic Segmentation [33.02424587900808]
本研究では,エージェントが3次元環境を探索し,視覚シーン理解の獲得を目指す,具体化されたビジュアルアクティブラーニングの課題について検討する。
我々は、学習と事前指定の両方のエージェントのバッテリーを開発し、環境に関する異なるレベルの知識で開発する。
本研究では,matterport3dシミュレータを用いて提案手法を広範囲に評価し,本手法が比較対象よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-17T11:02:34Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。