論文の概要: Recipe Generation from Unsegmented Cooking Videos
- arxiv url: http://arxiv.org/abs/2209.10134v1
- Date: Wed, 21 Sep 2022 05:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:43:37.039060
- Title: Recipe Generation from Unsegmented Cooking Videos
- Title(参考訳): 未分離調理映像からのレシピ生成
- Authors: Taichi Nishimura and Atsushi Hashimoto and Yoshitaka Ushiku and
Hirotaka Kameko and Shinsuke Mori
- Abstract要約: 本稿では,未解決の調理ビデオからレシピ生成に取り組む。
我々の課題は、出来事を徹底的に検出し、それらに対する文を生成することを目的とした高密度ビデオキャプション(DVC)と似ている。
- 参考スコア(独自算出の注目度): 22.701909307069762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper tackles recipe generation from unsegmented cooking videos, a task
that requires agents to (1) extract key events in completing the dish and (2)
generate sentences for the extracted events. Our task is similar to dense video
captioning (DVC), which aims at detecting events thoroughly and generating
sentences for them. However, unlike DVC, in recipe generation, recipe story
awareness is crucial, and a model should output an appropriate number of key
events in the correct order. We analyze the output of the DVC model and observe
that although (1) several events are adoptable as a recipe story, (2) the
generated sentences for such events are not grounded in the visual content.
Based on this, we hypothesize that we can obtain correct recipes by selecting
oracle events from the output events of the DVC model and re-generating
sentences for them. To achieve this, we propose a novel transformer-based joint
approach of training event selector and sentence generator for selecting oracle
events from the outputs of the DVC model and generating grounded sentences for
the events, respectively. In addition, we extend the model by including
ingredients to generate more accurate recipes. The experimental results show
that the proposed method outperforms state-of-the-art DVC models. We also
confirm that, by modeling the recipe in a story-aware manner, the proposed
model output the appropriate number of events in the correct order.
- Abstract(参考訳): 本稿では,(1)調理完了時に重要なイベントを抽出し,(2)抽出したイベントの文を生成することをエージェントに要求する,無節の調理ビデオからのレシピ生成に取り組む。
我々の課題は、出来事を徹底的に検出し、それらに対する文を生成することを目的とした高密度ビデオキャプション(DVC)と似ている。
しかし、dvcとは異なり、レシピ生成ではレシピストーリーの認識が不可欠であり、モデルでは適切な数のキーイベントを正しい順序で出力する必要がある。
dvcモデルの出力を分析し、(1)いくつかのイベントをレシピストーリーとして採用できるが、(2)生成された文が視覚的な内容に基づかないことを観察する。
そこで本研究では,DVCモデルの出力イベントからオラクルイベントを選択し,それらの文を再生成することで,正しいレシピを得ることができると仮定する。
そこで本研究では,DVCモデルの出力からオラクルイベントを選択し,各イベントの接地文を生成するための,トレーニングイベントセレクタと文生成器の新たな変換器を用いた共同手法を提案する。
さらに、より正確なレシピを生成するために材料を含めることでモデルを拡張する。
実験の結果,提案手法は最先端DVCモデルよりも優れていた。
また,レシピをストーリーアウェアな方法でモデル化することにより,適切な回数のイベントを正しい順序で出力することを確認した。
関連論文リスト
- Retrieval Augmented Recipe Generation [96.43285670458803]
本稿では,レシピ生成のための拡張型大規模マルチモーダルモデルを提案する。
既存のデータストアからサプリメントとして、イメージにセマンティックに関連付けられたレシピを検索する。
生成したレシピ候補間の一貫性を計算し、異なる検索レシピを生成のコンテキストとして使用する。
論文 参考訳(メタデータ) (2024-11-13T15:58:50Z) - Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Prompt-based Graph Model for Joint Liberal Event Extraction and Event Schema Induction [1.3154296174423619]
イベントは、エンティティの状態の変化を記述する、スピーチとテキストの不可欠なコンポーネントである。
イベント抽出タスクは、イベントを特定して分類し、イベントスキーマに従って参加者を見つけることを目的としている。
研究者らは、イベント抽出とイベントスキーマの同時発見を目的とした、リベラルイベント抽出(LEE)を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:56:42Z) - Event-aware Video Corpus Moment Retrieval [79.48249428428802]
Video Corpus Moment Retrieval(VCMR)は、未編集ビデオの膨大なコーパス内の特定の瞬間を特定することに焦点を当てた、実用的なビデオ検索タスクである。
VCMRの既存の方法は、典型的にはフレーム対応のビデオ検索に依存し、クエリとビデオフレーム間の類似性を計算して、ビデオをランク付けする。
本研究では,ビデオ検索の基本単位として,ビデオ内のイベントを明示的に活用するモデルであるEventFormerを提案する。
論文 参考訳(メタデータ) (2024-02-21T06:55:20Z) - Rich Event Modeling for Script Event Prediction [60.67635412135682]
スクリプトイベント予測のためのリッチイベント予測(REP)フレームワークを提案する。
REPは、テキストからそのような情報を抽出するイベント抽出器を含む。
予測器の中核となるコンポーネントは、任意の数の引数を柔軟に扱う変換器ベースのイベントエンコーダである。
論文 参考訳(メタデータ) (2022-12-16T05:17:59Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。