論文の概要: ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions
- arxiv url: http://arxiv.org/abs/2412.01987v1
- Date: Mon, 02 Dec 2024 21:40:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:44:43.796051
- Title: ShowHowTo: Generating Scene-Conditioned Step-by-Step Visual Instructions
- Title(参考訳): ShowHowTo: ステップバイステップの視覚指示を生成する
- Authors: Tomáš Souček, Prajwal Gatti, Michael Wray, Ivan Laptev, Dima Damen, Josef Sivic,
- Abstract要約: 本研究の目的は、入力画像が与えられた画像列の形式で、ステップバイステップの視覚的指示を生成することである。
課題の一部は、この問題に対する大規模なトレーニングデータが不足していることに起因する。
本稿では,指導ビデオから大規模視覚指導データを自動的に収集する手法を提案する。
第2に、提供された入力画像に整合したステップバイステップの視覚命令を生成することができるビデオ拡散モデルであるShowHowToを開発し、訓練する。
- 参考スコア(独自算出の注目度): 57.304601070962086
- License:
- Abstract: The goal of this work is to generate step-by-step visual instructions in the form of a sequence of images, given an input image that provides the scene context and the sequence of textual instructions. This is a challenging problem as it requires generating multi-step image sequences to achieve a complex goal while being grounded in a specific environment. Part of the challenge stems from the lack of large-scale training data for this problem. The contribution of this work is thus three-fold. First, we introduce an automatic approach for collecting large step-by-step visual instruction training data from instructional videos. We apply this approach to one million videos and create a large-scale, high-quality dataset of 0.6M sequences of image-text pairs. Second, we develop and train ShowHowTo, a video diffusion model capable of generating step-by-step visual instructions consistent with the provided input image. Third, we evaluate the generated image sequences across three dimensions of accuracy (step, scene, and task) and show our model achieves state-of-the-art results on all of them. Our code, dataset, and trained models are publicly available.
- Abstract(参考訳): 本研究の目的は、シーンコンテキストとテキスト命令のシーケンスを提供する入力画像が与えられた画像列の形式で、ステップバイステップの視覚命令を生成することである。
これは、特定の環境で接地しながら複雑な目標を達成するために、多段階の画像シーケンスを生成する必要があるため、難しい問題である。
課題の一部は、この問題に対する大規模なトレーニングデータが不足していることに起因する。
この作品の貢献は3倍である。
まず,指導ビデオから大きなステップバイステップの視覚指導データを自動的に収集する手法を提案する。
このアプローチを100万のビデオに適用し、画像テキストペアの0.6Mシーケンスからなる大規模で高品質なデータセットを作成する。
第二に、提供された入力画像に整合したステップバイステップの視覚命令を生成することができるビデオ拡散モデルであるShowHowToを開発し、訓練する。
第3に, 3次元の精度(ステップ, シーン, タスク)で生成した画像列を評価し, それらのすべてに対して, 我々のモデルが最先端の結果を得ることを示す。
私たちのコード、データセット、トレーニングされたモデルは公開されています。
関連論文リスト
- VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - End-to-end Dense Video Captioning as Sequence Generation [83.90502354328679]
本稿では,高密度ビデオキャプションの2つのサブタスクを1つのシーケンス生成タスクとして一緒にモデル化する方法を示す。
YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された複雑なタスクのトレーニングの実現可能性を示す。
論文 参考訳(メタデータ) (2022-04-18T01:30:54Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。