論文の概要: STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural
Videos
- arxiv url: http://arxiv.org/abs/2301.00794v2
- Date: Fri, 31 Mar 2023 15:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:50:19.751745
- Title: STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural
Videos
- Title(参考訳): ステップ:未ラベルの手続きビデオからの自己教師付きキーステップ抽出
- Authors: Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa
- Abstract要約: 問題を表現学習とキーステップ抽出の2つのステップに分解する。
ラベルのない様々なステップの異種表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。
キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも顕著な改善が見られた。
- 参考スコア(独自算出の注目度): 56.40501721215153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of extracting key steps from unlabeled procedural
videos, motivated by the potential of Augmented Reality (AR) headsets to
revolutionize job training and performance. We decompose the problem into two
steps: representation learning and key steps extraction. We propose a training
objective, Bootstrapped Multi-Cue Contrastive (BMC2) loss to learn
disciriminative representations for various steps without any labels. Different
from prior works, we develop techniques to train a light-weight temporal module
which uses off-the-shelf features for self supervision. Our approach can
seamlessly leverage information from multiple cues like optical flow, depth or
gaze to learn discriminative features for key-steps making it amenable for AR
applications. We finally extract key steps via a tunable algorithm that
clusters the representations and samples. We show significant improvements over
prior works for the task of key step localization and phase classification.
Qualitative results demonstrate that the extracted key steps are meaningful to
succinctly represent various steps of the procedural tasks.
- Abstract(参考訳): 我々は、拡張現実(ar)ヘッドセットが仕事のトレーニングやパフォーマンスに革命をもたらす可能性に動機付けられた、ラベルなしの手続きビデオから重要なステップを抽出する問題に対処する。
問題を表現学習とキーステップ抽出という2つのステップに分解する。
ラベルのない様々なステップの異種表現を学習するための学習目標であるBootstrapped Multi-Cue Contrastive (BMC2)損失を提案する。
従来の作業とは違って,自己監督のために市販の機能を利用する軽量時間モジュールの訓練手法を開発した。
私たちのアプローチは、光学フロー、深度、視線といった複数の手がかりからの情報をシームレスに活用し、キーステップの識別的特徴を学習し、arアプリケーションにとって役立ちます。
最終的に、表現とサンプルをクラスタリングするチューナブルアルゴリズムを通じて、キーステップを抽出する。
キーステップのローカライゼーションと位相分類のタスクにおいて,先行作業よりも大幅な改善が見られた。
定性的な結果は,抽出されたキーステップが手続きタスクの様々なステップを簡潔に表現する意味を持つことを示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Automatic Discovery of Multi-perspective Process Model using
Reinforcement Learning [7.5989847759545155]
深層Q-Learningに基づく多視点プロセスモデルの自動発見フレームワークを提案する。
我々のDual Experience Replay with Experience Distribution(DERED)アプローチは、プロセスモデル発見ステップ、適合チェックステップ、拡張ステップを自動的に実行できます。
ポートロジスティクス、鉄鋼製造、金融、IT、政府管理で収集された6つの実世界のイベントデータセットを用いて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T02:18:29Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。