論文の概要: StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos
- arxiv url: http://arxiv.org/abs/2304.13265v1
- Date: Wed, 26 Apr 2023 03:37:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 15:37:40.863251
- Title: StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos
- Title(参考訳): StepFormer: インストラクショナルビデオにおける自己教師型ステップディスカバリとローカライゼーション
- Authors: Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis,
Animesh Garg, Richard P. Wildes, Allan D. Jepson
- Abstract要約: 本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 47.03252542488226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instructional videos are an important resource to learn procedural tasks from
human demonstrations. However, the instruction steps in such videos are
typically short and sparse, with most of the video being irrelevant to the
procedure. This motivates the need to temporally localize the instruction steps
in such videos, i.e. the task called key-step localization. Traditional methods
for key-step localization require video-level human annotations and thus do not
scale to large datasets. In this work, we tackle the problem with no human
supervision and introduce StepFormer, a self-supervised model that discovers
and localizes instruction steps in a video. StepFormer is a transformer decoder
that attends to the video with learnable queries, and produces a sequence of
slots capturing the key-steps in the video. We train our system on a large
dataset of instructional videos, using their automatically-generated subtitles
as the only source of supervision. In particular, we supervise our system with
a sequence of text narrations using an order-aware loss function that filters
out irrelevant phrases. We show that our model outperforms all previous
unsupervised and weakly-supervised approaches on step detection and
localization by a large margin on three challenging benchmarks. Moreover, our
model demonstrates an emergent property to solve zero-shot multi-step
localization and outperforms all relevant baselines at this task.
- Abstract(参考訳): インストラクショナルビデオは、人間のデモから手続き的なタスクを学ぶための重要なリソースである。
しかし、そのようなビデオの指導手順は、通常短く、疎らであり、ほとんどのビデオは手順とは無関係である。
これにより、ビデオ内の命令ステップ、すなわちキーステップローカライズと呼ばれるタスクを一時的にローカライズする必要性が高まる。
従来のキーステップのローカライゼーションにはビデオレベルのヒューマンアノテーションが必要であり、大規模なデータセットにスケールしない。
本研究では,人間の監督なしにこの問題に取り組み,ビデオ中の指示ステップを発見し,局所化する自己教師付きモデルであるstepformerを導入する。
StepFormerは、学習可能なクエリでビデオに出席し、ビデオのキーステップをキャプチャするスロットのシーケンスを生成するトランスフォーマーデコーダである。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
特に,無関係な句をフィルタする順序認識損失関数を用いて,テキストナレーションのシーケンスでシステムを監視する。
我々は,従来の教師なしおよび弱教師付きアプローチである3つのベンチマークにおいて,ステップ検出とローカライゼーションを大きなマージンで上回っていることを示す。
さらに,本モデルでは,ゼロショットマルチステップのローカライゼーションを解き,関連するベースラインをすべて上回る創発的特性を示す。
関連論文リスト
- Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Unsupervised Discovery of Actions in Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。
我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2021-06-28T14:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。