論文の概要: Procedure-Aware Pretraining for Instructional Video Understanding
- arxiv url: http://arxiv.org/abs/2303.18230v1
- Date: Fri, 31 Mar 2023 17:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 12:58:37.417227
- Title: Procedure-Aware Pretraining for Instructional Video Understanding
- Title(参考訳): インストラクショナルビデオ理解のためのプロシージャ・アウェア事前学習
- Authors: Honglu Zhou, Roberto Mart\'in-Mart\'in, Mubbasir Kapadia, Silvio
Savarese, Juan Carlos Niebles
- Abstract要約: 手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
- 参考スコア(独自算出の注目度): 58.214549181779006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our goal is to learn a video representation that is useful for downstream
procedure understanding tasks in instructional videos. Due to the small amount
of available annotations, a key challenge in procedure understanding is to be
able to extract from unlabeled videos the procedural knowledge such as the
identity of the task (e.g., 'make latte'), its steps (e.g., 'pour milk'), or
the potential next steps given partial progress in its execution. Our main
insight is that instructional videos depict sequences of steps that repeat
between instances of the same or different tasks, and that this structure can
be well represented by a Procedural Knowledge Graph (PKG), where nodes are
discrete steps and edges connect steps that occur sequentially in the
instructional activities. This graph can then be used to generate pseudo labels
to train a video representation that encodes the procedural knowledge in a more
accessible form to generalize to multiple procedure understanding tasks. We
build a PKG by combining information from a text-based procedural knowledge
database and an unlabeled instructional video corpus and then use it to
generate training pseudo labels with four novel pre-training objectives. We
call this PKG-based pre-training procedure and the resulting model Paprika,
Procedure-Aware PRe-training for Instructional Knowledge Acquisition. We
evaluate Paprika on COIN and CrossTask for procedure understanding tasks such
as task recognition, step recognition, and step forecasting. Paprika yields a
video representation that improves over the state of the art: up to 11.23%
gains in accuracy in 12 evaluation settings. Implementation is available at
https://github.com/salesforce/paprika.
- Abstract(参考訳): 我々のゴールは、教育ビデオの下流手順理解タスクに有用な映像表現を学習することである。
利用可能なアノテーションの量が少なかったため、手続き理解の重要な課題は、タスクの同一性(例:「make latte」)、そのステップ(例:「pour milk」)、実行時に部分的に進歩する可能性のある次のステップなどの手続き的知識をラベル付けされていないビデオから抽出できることである。
私たちの主な洞察は、インストラクショナルビデオが同一または異なるタスクのインスタンス間を繰り返すステップのシーケンスを描写し、この構造を手続き的知識グラフ(pkg)で表現し、ノードが離散的なステップであり、エッジがインストラクショナルアクティビティで順次発生するステップを接続できるということです。
このグラフは擬似ラベルを生成して、手続きの知識をよりアクセスしやすい形でエンコードしたビデオ表現をトレーニングすることで、複数の手続き理解タスクに一般化することができる。
テキストベースの手続き知識データベースとラベルなしの教示ビデオコーパスの情報を組み合わせてpkgを構築し,それを用いて4つの新しい事前学習目的を持つ訓練擬似ラベルを生成する。
我々はこのPKGベースの事前学習手順と、結果のモデルであるPaprika, procedure-Aware PRE-training for Instructional Knowledge Acquisitionと呼ぶ。
タスク認識,ステップ認識,ステップ予測などの手順理解タスクに対して,COINとCrossTask上のPaprikaを評価する。
パプリカは、12の評価設定で最大11.23%の精度で、芸術の状態を改善したビデオ表現を提供する。
実装はhttps://github.com/salesforce/paprikaで利用可能である。
関連論文リスト
- Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Non-Sequential Graph Script Induction via Multimedia Grounding [129.83134296316493]
我々は、学習タスクのための明示的なグラフスクリプトを生成することと、部分的なステップシーケンスが与えられた将来のステップを予測することの両方が可能なスクリプト知識モデルを訓練する。
人間による評価では、我々のモデルはWikiHowの線形ベースラインを48.76%上回り、シーケンシャルなステップ関係と非シーケンシャルなステップ関係を捉えた。
論文 参考訳(メタデータ) (2023-05-27T18:13:17Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - Graph2Vid: Flow graph to Video Grounding forWeakly-supervised Multi-Step
Localization [14.95378874133603]
教育ビデオにおける弱教師付きマルチステップローカライゼーションの問題点を考察する。
この問題に対する確立したアプローチは、与えられたステップのリストに依存することです。
本稿では,ビデオ中のステップの実際の順序を推定し,同時にローカライズする新しいアルゴリズムであるGraph2Vidを提案する。
論文 参考訳(メタデータ) (2022-10-10T20:02:58Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。