論文の概要: VisualChef: Generating Visual Aids in Cooking via Mask Inpainting
- arxiv url: http://arxiv.org/abs/2506.18569v1
- Date: Mon, 23 Jun 2025 12:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.97317
- Title: VisualChef: Generating Visual Aids in Cooking via Mask Inpainting
- Title(参考訳): VisualChef: マスク塗装による調理におけるビジュアルエイドの生成
- Authors: Oleh Kuzyk, Zuoyue Li, Marc Pollefeys, Xi Wang,
- Abstract要約: 我々は,調理シナリオに適したコンテキスト視覚支援を生成するVisualChefを紹介する。
初期フレームと指定されたアクションが与えられた後、VisualChefはアクションの実行と結果のオブジェクトの外観の両方を描写した画像を生成する。
3つのエゴセントリックなビデオデータセット上でVisualChefを定量的に定性的に評価し、最先端の手法による改善を示す。
- 参考スコア(独自算出の注目度): 50.84305074983752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooking requires not only following instructions but also understanding, executing, and monitoring each step - a process that can be challenging without visual guidance. Although recipe images and videos offer helpful cues, they often lack consistency in focus, tools, and setup. To better support the cooking process, we introduce VisualChef, a method for generating contextual visual aids tailored to cooking scenarios. Given an initial frame and a specified action, VisualChef generates images depicting both the action's execution and the resulting appearance of the object, while preserving the initial frame's environment. Previous work aims to integrate knowledge extracted from large language models by generating detailed textual descriptions to guide image generation, which requires fine-grained visual-textual alignment and involves additional annotations. In contrast, VisualChef simplifies alignment through mask-based visual grounding. Our key insight is identifying action-relevant objects and classifying them to enable targeted modifications that reflect the intended action and outcome while maintaining a consistent environment. In addition, we propose an automated pipeline to extract high-quality initial, action, and final state frames. We evaluate VisualChef quantitatively and qualitatively on three egocentric video datasets and show its improvements over state-of-the-art methods.
- Abstract(参考訳): 料理には指示に従うだけでなく、各ステップを理解し、実行し、監視する必要がある。
レシピ画像やビデオは役に立つヒントを提供するが、焦点、ツール、設定の一貫性に欠けることが多い。
調理プロセスを支援するために,調理シナリオに適したコンテキストビジュアルエイズを生成するVisualChefを紹介した。
初期フレームと指定されたアクションが与えられた後、VisualChefは初期フレームの環境を維持しながら、アクションの実行と結果のオブジェクトの外観の両方を描写した画像を生成する。
従来の研究は、詳細なテキスト記述を生成して画像生成をガイドすることで、大規模言語モデルから抽出した知識を統合することを目的としていた。
対照的に、VisualChefはマスクベースの視覚的接地によってアライメントを簡単にする。
私たちの重要な洞察は、アクション関連オブジェクトを特定し、それらを分類して、一貫した環境を維持しながら意図されたアクションと結果を反映したターゲットとなる修正を可能にすることです。
さらに,高品質な初期,動作,最終状態フレームを抽出する自動パイプラインを提案する。
3つのエゴセントリックなビデオデータセット上でVisualChefを定量的に定性的に評価し、最先端の手法による改善を示す。
関連論文リスト
- OSCAR: Object Status and Contextual Awareness for Recipes to Support Non-Visual Cooking [24.6085205199758]
調理中のレシピに従うことは、視覚障害者にとって重要な課題であるが難しい課題である。
我々は、レシピの進捗追跡とコンテキスト認識フィードバックを提供する新しいアプローチであるOSCARを開発した。
我々は、YouTubeの調理ビデオ173本と現実世界の非視覚的調理ビデオ12本を用いて、OSCARのレシピをフォローする機能を評価した。
論文 参考訳(メタデータ) (2025-03-07T22:03:21Z) - CookingDiffusion: Cooking Procedural Image Generation with Stable Diffusion [58.92430755180394]
textbfCookingDiffusionは,調理工程のリアルな画像を生成する新しい手法である。
これらのプロンプトは、テキストプロンプト、画像プロンプト、マルチモーダルプロンプトを含み、一貫したプロシージャ画像の生成を保証する。
実験結果から, 高品質な調理用プロシージャ画像の生成に優れたモデルが得られた。
論文 参考訳(メタデータ) (2025-01-15T06:58:53Z) - ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - InstructDiffusion: A Generalist Modeling Interface for Vision Tasks [52.981128371910266]
InstructDiffusionはコンピュータビジョンタスクを人間の指示に合わせるためのフレームワークである。
InstructDiffusionは、タスクの理解や生成タスクなど、さまざまなビジョンタスクを処理できる。
目に見えないタスクを処理し、新しいデータセットで前のメソッドより優れていることも示しています。
論文 参考訳(メタデータ) (2023-09-07T17:56:57Z) - 50 Ways to Bake a Cookie: Mapping the Landscape of Procedural Texts [15.185745028886648]
本稿では,複数の手続きテキストを直感的なグラフ表現に要約するための教師なし学習手法を提案する。
我々は、手続き的テキストの顕著な例であるレシピについて、我々のアプローチを実証する。
論文 参考訳(メタデータ) (2022-10-31T11:41:54Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z) - Multi-modal Cooking Workflow Construction for Food Recipes [147.4435186953995]
ワークフロー構築のための最初の大規模データセットであるMM-ReSを構築した。
本稿では、視覚情報とテキスト情報の両方を利用して調理ワークフローを構築するニューラルエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-08-20T18:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。