論文の概要: Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations
- arxiv url: http://arxiv.org/abs/2303.17839v1
- Date: Fri, 31 Mar 2023 07:02:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 15:11:25.122639
- Title: Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations
- Title(参考訳): 授業映像から学習手順を考慮した映像表現とそのナレーション
- Authors: Yiwu Zhong, Licheng Yu, Yang Bai, Shangwen Li, Xueting Yan, Yin Li
- Abstract要約: 我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
- 参考スコア(独自算出の注目度): 22.723309913388196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The abundance of instructional videos and their narrations over the Internet
offers an exciting avenue for understanding procedural activities. In this
work, we propose to learn video representation that encodes both action steps
and their temporal ordering, based on a large-scale dataset of web
instructional videos and their narrations, without using human annotations. Our
method jointly learns a video representation to encode individual step
concepts, and a deep probabilistic model to capture both temporal dependencies
and immense individual variations in the step ordering. We empirically
demonstrate that learning temporal ordering not only enables new capabilities
for procedure reasoning, but also reinforces the recognition of individual
steps. Our model significantly advances the state-of-the-art results on step
classification (+2.8% / +3.3% on COIN / EPIC-Kitchens) and step forecasting
(+7.4% on COIN). Moreover, our model attains promising results in zero-shot
inference for step classification and forecasting, as well as in predicting
diverse and plausible steps for incomplete procedures. Our code is available at
https://github.com/facebookresearch/ProcedureVRL.
- Abstract(参考訳): インターネット上での指導ビデオの豊富さとナレーションは、手続き的活動を理解するためのエキサイティングな道のりを提供する。
本研究では,webインストラクションビデオとそのナレーションの大規模データセットに基づいて,アクションステップと時間順序の両方をエンコードする映像表現を,人間のアノテーションを使わずに学習することを提案する。
本手法は,個別のステップ概念をエンコードする映像表現と,時間依存と膨大な個人変動の両方をステップ順序で捉える深い確率モデルとを共同で学習する。
時間順序の学習は,手続き推論に新たな能力をもたらすだけでなく,個々のステップの認識も強化することを示す。
当社のモデルでは,ステップ分類(COIN/EPIC-Kitchensでは+2.8%/+3.3%)とステップ予測(COINでは+7.4%)について,最先端の結果を大幅に向上させる。
さらに,本モデルでは,ステップ分類と予測のためのゼロショット推論,および不完全手順の多様かつ妥当なステップの予測を行う。
私たちのコードはhttps://github.com/facebookresearch/procedurevrlで利用可能です。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - My View is the Best View: Procedure Learning from Egocentric Videos [31.385646424154732]
既存のアプローチでは、手順を学ぶために第三者のビデオが一般的である。
我々は、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオが、そのアクションの邪魔にならない明確なビューを提供するのを観察する。
本稿では,プロシージャ学習のための自己教師型Cor corresponding and Cutフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-22T05:28:11Z) - P3IV: Probabilistic Procedure Planning from Instructional Videos with
Weak Supervision [31.73732506824829]
授業ビデオにおけるプロシージャプランニングの問題について検討する。
ここでは、エージェントは、与えられたスタートから望ましいゴール状態へ環境を変換できる、もっともらしい一連のアクションを生成しなければならない。
自然言語の指示から学習することで,弱い教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2022-05-04T19:37:32Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。