論文の概要: GePSAn: Generative Procedure Step Anticipation in Cooking Videos
- arxiv url: http://arxiv.org/abs/2310.08312v1
- Date: Thu, 12 Oct 2023 13:20:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 11:21:33.212406
- Title: GePSAn: Generative Procedure Step Anticipation in Cooking Videos
- Title(参考訳): GePSAn: 料理ビデオにおける生成手順のステップ
- Authors: Mohamed Ashraf Abdelsalam, Samrudhdhi B. Rangrej, Isma Hadji, Nikita
Dvornik, Konstantinos G. Derpanis, Afsaneh Fazly
- Abstract要約: プロシージャビデオにおける将来のステップ予測の問題について検討する。
進行中の手続き的活動のビデオから、我々はリッチな自然言語で記述された妥当な次の手順を予測する。
本モデルでは,次のステップの予測において多様性を捉え,複数の予測可能な将来予測を生成する。
- 参考スコア(独自算出の注目度): 22.908511747910197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of future step anticipation in procedural videos. Given
a video of an ongoing procedural activity, we predict a plausible next
procedure step described in rich natural language. While most previous work
focus on the problem of data scarcity in procedural video datasets, another
core challenge of future anticipation is how to account for multiple plausible
future realizations in natural settings. This problem has been largely
overlooked in previous work. To address this challenge, we frame future step
prediction as modelling the distribution of all possible candidates for the
next step. Specifically, we design a generative model that takes a series of
video clips as input, and generates multiple plausible and diverse candidates
(in natural language) for the next step. Following previous work, we side-step
the video annotation scarcity by pretraining our model on a large text-based
corpus of procedural activities, and then transfer the model to the video
domain. Our experiments, both in textual and video domains, show that our model
captures diversity in the next step prediction and generates multiple plausible
future predictions. Moreover, our model establishes new state-of-the-art
results on YouCookII, where it outperforms existing baselines on the next step
anticipation. Finally, we also show that our model can successfully transfer
from text to the video domain zero-shot, ie, without fine-tuning or adaptation,
and produces good-quality future step predictions from video.
- Abstract(参考訳): 手続きビデオにおける今後のステップ予測の問題点について検討する。
進行中の手続き的活動のビデオから、我々はリッチな自然言語で記述された妥当な次の手順を予測する。
これまでのほとんどの研究は、プロシージャビデオデータセットにおけるデータ不足の問題に焦点を当てていたが、将来の予測におけるもう一つの大きな課題は、自然設定における複数の有望な未来の実現を説明する方法である。
この問題は以前の研究でほとんど見落とされた。
この課題に対処するために、将来のステップ予測は、次のステップにおける全ての候補の分布をモデル化するものである。
具体的には、一連のビデオクリップを入力として生成モデルを設計し、次のステップで複数の多種多様な候補(自然言語)を生成します。
先行研究の後、手続き的活動の大きなテキストベースコーパスにモデルを事前学習し、そのモデルをビデオドメインに転送することで、ビデオアノテーションの不足を解消する。
我々の実験はテキストとビデオの両方において、次のステップの予測において多様性を捉え、複数の有望な将来予測を生成することを示す。
さらに、我々のモデルはYouCookII上で新しい最先端の結果を確立し、次のステップで既存のベースラインを上回ります。
最後に,本モデルがテキストから動画領域のゼロショットieへ,微調整や適応を行わずに転送できることを示し,ビデオから良質な将来のステップ予測を生成する。
関連論文リスト
- Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - DiffAnt: Diffusion Models for Action Anticipation [12.022815981853071]
将来の行動を予測することは本質的に不確実である。現在進行中の行動を含む観察ビデオセグメントを考えると、複数の行動が確実に続く可能性がある。
本研究では, 予測行動の予測を生成的視点から再考し, 拡散モデルを用いて, 様々な将来的行動の予測を行う。
コードとトレーニングされたモデルはGitHubで公開される予定です。
論文 参考訳(メタデータ) (2023-11-27T16:40:09Z) - SEINE: Short-to-Long Video Diffusion Model for Generative Transition and
Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。
テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。
我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文 参考訳(メタデータ) (2023-10-31T17:58:17Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - HARP: Autoregressive Latent Video Prediction with High-Fidelity Image
Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。
既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文 参考訳(メタデータ) (2022-09-15T08:41:57Z) - Future Frame Prediction for Robot-assisted Surgery [57.18185972461453]
本稿では,ロボット手術用ビデオシーケンスにおけるフレーム予測のためのtpg-vaeモデルを提案する。
コンテンツ配信に加えて、私たちのモデルは、手術ツールの小さな動きを処理するために斬新な運動分布を学習します。
論文 参考訳(メタデータ) (2021-03-18T15:12:06Z) - What is More Likely to Happen Next? Video-and-Language Future Event
Prediction [111.93601253692165]
対話が整ったビデオの場合、人々は次に何が起こるかを見極めることができる。
本研究では,AIモデルがこのようなマルチモーダル・コモンセンスの次世代予測を学べるかどうかを考察する。
新しいデータセットであるVideo-and-Language Event Prediction(ビデオ・アンド・ランゲージ・イベント予測)を収集します。
論文 参考訳(メタデータ) (2020-10-15T19:56:47Z) - Deep Sequence Learning for Video Anticipation: From Discrete and
Deterministic to Continuous and Stochastic [1.52292571922932]
ビデオ予測は、限られた部分的な観察を与えられた1/複数未来表現を予測するタスクである。
特に、この論文では、ビデオ予測の文献にいくつかの貢献をしている。
論文 参考訳(メタデータ) (2020-10-09T04:40:58Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。