論文の概要: STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural
Videos
- arxiv url: http://arxiv.org/abs/2301.00794v1
- Date: Mon, 2 Jan 2023 18:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 15:19:33.364604
- Title: STEPs: Self-Supervised Key Step Extraction from Unlabeled Procedural
Videos
- Title(参考訳): ステップ:未ラベルの手続きビデオからの自己教師付きキーステップ抽出
- Authors: Anshul Shah, Benjamin Lundell, Harpreet Sawhney, Rama Chellappa
- Abstract要約: 問題を表現学習とキーステップ抽出の2つのステップに分解する。
我々は、時間モジュールを用いて、市販のビデオ機能に適応するトレーニング戦略により、自己教師付き表現学習を採用する。
提案手法は,プロシージャビデオから抽出した表現をクラスタリングするチューナブルアルゴリズムを用いてキーステップを抽出する。
- 参考スコア(独自算出の注目度): 56.40501721215153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of extracting key steps from unlabeled procedural
videos, motivated by the potential of Augmented Reality (AR) headsets to
revolutionize job training and performance. We decompose the problem into two
steps: representation learning and key steps extraction. We employ
self-supervised representation learning via a training strategy that adapts
off-the-shelf video features using a temporal module. Training implements
self-supervised learning losses involving multiple cues such as appearance,
motion and pose trajectories extracted from videos to learn generalizable
representations. Our method extracts key steps via a tunable algorithm that
clusters the representations extracted from procedural videos. We
quantitatively evaluate our approach with key step localization and also
demonstrate the effectiveness of the extracted representations on related
downstream tasks like phase classification. Qualitative results demonstrate
that the extracted key steps are meaningful to succinctly represent the
procedural tasks.
- Abstract(参考訳): 我々は、拡張現実(ar)ヘッドセットが仕事のトレーニングやパフォーマンスに革命をもたらす可能性に動機付けられた、ラベルなしの手続きビデオから重要なステップを抽出する問題に対処する。
問題を表現学習とキーステップ抽出という2つのステップに分解する。
我々は,テンポラリモジュールを用いた既製ビデオ機能を活用した学習戦略を通じて,自己教師あり表現学習を採用する。
トレーニングは、ビデオから抽出された外観、動き、ポーズなどの複数の手がかりを含む自己教師付き学習損失を実装し、一般化可能な表現を学習する。
提案手法は,手続きビデオから抽出した表現をクラスタ化する可変アルゴリズムを用いて鍵ステップを抽出する。
本手法をキーステップ定位法を用いて定量的に評価し,位相分類などの下流課題における抽出表現の有効性を実証した。
定性的な結果は,抽出されたキーステップが手続きタスクを簡潔に表現する意味を持つことを示す。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Video-Mined Task Graphs for Keystep Recognition in Instructional Videos [71.16703750980143]
手続き的活動理解には、より広いタスクの観点から人間の行動を知覚する必要がある。
本稿では,ハウツービデオからタスクグラフを自動的に発見して,人々がキーステップを実行する傾向を確率論的に表現することを提案する。
より信頼性の高いゼロショットキーステップのローカライゼーションとビデオ表現学習の改善。
論文 参考訳(メタデータ) (2023-07-17T18:19:36Z) - SeMAIL: Eliminating Distractors in Visual Imitation via Separated Models [22.472167814814448]
本稿では,SeMAIL(Separated Model-based Adversarial Imitation Learning)というモデルベース模倣学習アルゴリズムを提案する。
本手法は, 様々な視覚的制御タスクにおいて, 複雑な観察と, 専門的な観察から異なる背景を持つより困難なタスクにおいて, ほぼ専門的な性能を実現する。
論文 参考訳(メタデータ) (2023-06-19T04:33:44Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Automatic Discovery of Multi-perspective Process Model using
Reinforcement Learning [7.5989847759545155]
深層Q-Learningに基づく多視点プロセスモデルの自動発見フレームワークを提案する。
我々のDual Experience Replay with Experience Distribution(DERED)アプローチは、プロセスモデル発見ステップ、適合チェックステップ、拡張ステップを自動的に実行できます。
ポートロジスティクス、鉄鋼製造、金融、IT、政府管理で収集された6つの実世界のイベントデータセットを用いて、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2022-11-30T02:18:29Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。