論文の概要: Unsupervised Discovery of Actions in Instructional Videos
- arxiv url: http://arxiv.org/abs/2106.14733v1
- Date: Mon, 28 Jun 2021 14:05:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:02:04.462754
- Title: Unsupervised Discovery of Actions in Instructional Videos
- Title(参考訳): インストラクショナルビデオにおける行動の教師なし発見
- Authors: AJ Piergiovanni and Anelia Angelova and Michael S. Ryoo and Irfan Essa
- Abstract要約: 我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次自己回帰モデルを提案する。
我々の手法は、最先端の教師なし手法よりも大きなマージンで優れています。
- 参考スコア(独自算出の注目度): 86.77350242461803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the problem of automatically discovering atomic
actions in unsupervised manner from instructional videos. Instructional videos
contain complex activities and are a rich source of information for intelligent
agents, such as, autonomous robots or virtual assistants, which can, for
example, automatically `read' the steps from an instructional video and execute
them. However, videos are rarely annotated with atomic activities, their
boundaries or duration. We present an unsupervised approach to learn atomic
actions of structured human tasks from a variety of instructional videos. We
propose a sequential stochastic autoregressive model for temporal segmentation
of videos, which learns to represent and discover the sequential relationship
between different atomic actions of the task, and which provides automatic and
unsupervised self-labeling for videos. Our approach outperforms the
state-of-the-art unsupervised methods with large margins. We will open source
the code.
- Abstract(参考訳): 本稿では,教師なしのビデオから原子行動を自動的に検出する問題に対処する。
インストラクショナルビデオは複雑なアクティビティを含み、自律ロボットや仮想アシスタントのようなインテリジェントなエージェントのための豊富な情報源であり、例えば、インストラクショナルビデオからステップを自動的に読み出して実行することができる。
しかし、ビデオがアトミックな活動やその境界や期間に注釈をつけることは滅多にない。
本稿では,様々な授業ビデオから構造化ヒューマンタスクのアトミックアクションを学ぶための教師なしアプローチを提案する。
本稿では,映像の時間的セグメンテーションのための逐次的確率的自己回帰モデルを提案し,タスクの異なるアトミックアクション間の逐次関係を表現・発見し,ビデオの自動的および教師なしの自己ラベルを提供する。
我々のアプローチは、最先端の教師なしメソッドを大きなマージンで上回っている。
コードをオープンソース化します。
関連論文リスト
- Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - StepFormer: Self-supervised Step Discovery and Localization in
Instructional Videos [47.03252542488226]
本稿では、ビデオ中の命令ステップを検出し、ローカライズする自己教師型モデルであるStepFormerを紹介する。
我々は、自動生成した字幕を唯一の監督源として、大規模な指導ビデオのデータセットで学習する。
本モデルでは,従来の教師なしおよび弱教師付きアプローチにおいて,ステップ検出とローカライゼーションにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-04-26T03:37:28Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - Unsupervised Action Segmentation for Instructional Videos [86.77350242461803]
我々は,様々な指導ビデオから構造化された人間のタスクの原子的動作を学習するための教師なしのアプローチを提案する。
これは、タスクの異なるアトミックアクション間のシーケンシャルな関係を表現し、発見することを学び、自動的で教師なしの自己ラベルを提供する。
論文 参考訳(メタデータ) (2021-06-07T16:02:06Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z) - A Benchmark for Structured Procedural Knowledge Extraction from Cooking
Videos [126.66212285239624]
本稿では,調理ビデオから抽出した構造化手続き的知識のベンチマークを提案する。
手動で注釈付けしたオープン語彙リソースには、356の指導的調理ビデオと15,523のビデオクリップ/文レベルのアノテーションが含まれています。
論文 参考訳(メタデータ) (2020-05-02T05:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。