論文の概要: Learning To Recognize Procedural Activities with Distant Supervision
- arxiv url: http://arxiv.org/abs/2201.10990v1
- Date: Wed, 26 Jan 2022 15:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 14:15:19.790594
- Title: Learning To Recognize Procedural Activities with Distant Supervision
- Title(参考訳): 遠隔指導による手続き活動認識の学習
- Authors: Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu
Chang, Lorenzo Torresani
- Abstract要約: 最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
- 参考スコア(独自算出の注目度): 96.58436002052466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we consider the problem of classifying fine-grained, multi-step
activities (e.g., cooking different recipes, making disparate home
improvements, creating various forms of arts and crafts) from long videos
spanning up to several minutes. Accurately categorizing these activities
requires not only recognizing the individual steps that compose the task but
also capturing their temporal dependencies. This problem is dramatically
different from traditional action classification, where models are typically
optimized on videos that span only a few seconds and that are manually trimmed
to contain simple atomic actions. While step annotations could enable the
training of models to recognize the individual steps of procedural activities,
existing large-scale datasets in this area do not include such segment labels
due to the prohibitive cost of manually annotating temporal boundaries in long
videos. To address this issue, we propose to automatically identify steps in
instructional videos by leveraging the distant supervision of a textual
knowledge base (wikiHow) that includes detailed descriptions of the steps
needed for the execution of a wide variety of complex activities. Our method
uses a language model to match noisy, automatically-transcribed speech from the
video to step descriptions in the knowledge base. We demonstrate that video
models trained to recognize these automatically-labeled steps (without manual
supervision) yield a representation that achieves superior generalization
performance on four downstream tasks: recognition of procedural activities,
step classification, step forecasting and egocentric video classification.
- Abstract(参考訳): 本稿では,細粒度で多段階な活動(例えば,レシピの異なる料理,異なる家庭の改良,さまざまな芸術や工芸品の制作など)を,数分以内の長編ビデオから分類する問題を考える。
これらのアクティビティを正確に分類するには、タスクを構成する個々のステップを認識するだけでなく、その一時的な依存関係を捉える必要がある。
この問題は従来のアクション分類とは大きく異なり、モデルは通常、わずか数秒の動画に最適化され、単純なアトミックアクションを含むように手作業でトリミングされる。
ステップアノテーションは、プロシージャ活動の個々のステップを認識するためのモデルのトレーニングを可能にするが、この領域の既存の大規模データセットは、長いビデオで時間境界を手動で注釈付けすることの禁止コストのため、そのようなセグメントラベルを含まない。
そこで本研究では,多種多様な複雑な活動の実行に必要なステップを詳細に記述したテキスト知識ベース(wikiHow)の遠隔監視を活用して,指導ビデオのステップを自動的に識別する手法を提案する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
これらの自動ラベル付きステップを(手動の監督なしで)認識するために訓練されたビデオモデルは、4つの下流タスクにおいて優れた一般化性能を達成する表現(手順アクティビティの認識、ステップ分類、ステップ予測、エゴセントリックビデオ分類)をもたらす。
関連論文リスト
- Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Procedure-Aware Pretraining for Instructional Video Understanding [58.214549181779006]
手続き理解の鍵となる課題は、未ラベルのビデオから手続き的知識を抽出できることである。
私たちの主な洞察は、命令ビデオが同じまたは異なるタスクのインスタンス間で繰り返されるステップのシーケンスを描いていることです。
このグラフを使用して擬似ラベルを生成し、よりアクセスしやすい形式で手続き的知識を符号化するビデオ表現を訓練することができる。
論文 参考訳(メタデータ) (2023-03-31T17:41:31Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。