論文の概要: My View is the Best View: Procedure Learning from Egocentric Videos
- arxiv url: http://arxiv.org/abs/2207.10883v1
- Date: Fri, 22 Jul 2022 05:28:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:32:32.351562
- Title: My View is the Best View: Procedure Learning from Egocentric Videos
- Title(参考訳): 自己中心型ビデオからプロシージャを学習する私の見解
- Authors: Siddhant Bansal, Chetan Arora, C.V. Jawahar
- Abstract要約: 既存のアプローチでは、手順を学ぶために第三者のビデオが一般的である。
我々は、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオが、そのアクションの邪魔にならない明確なビューを提供するのを観察する。
本稿では,プロシージャ学習のための自己教師型Cor corresponding and Cutフレームワークを提案する。
- 参考スコア(独自算出の注目度): 31.385646424154732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedure learning involves identifying the key-steps and determining their
logical order to perform a task. Existing approaches commonly use third-person
videos for learning the procedure, making the manipulated object small in
appearance and often occluded by the actor, leading to significant errors. In
contrast, we observe that videos obtained from first-person (egocentric)
wearable cameras provide an unobstructed and clear view of the action. However,
procedure learning from egocentric videos is challenging because (a) the camera
view undergoes extreme changes due to the wearer's head motion, and (b) the
presence of unrelated frames due to the unconstrained nature of the videos. Due
to this, current state-of-the-art methods' assumptions that the actions occur
at approximately the same time and are of the same duration, do not hold.
Instead, we propose to use the signal provided by the temporal correspondences
between key-steps across videos. To this end, we present a novel
self-supervised Correspond and Cut (CnC) framework for procedure learning. CnC
identifies and utilizes the temporal correspondences between the key-steps
across multiple videos to learn the procedure. Our experiments show that CnC
outperforms the state-of-the-art on the benchmark ProceL and CrossTask datasets
by 5.2% and 6.3%, respectively. Furthermore, for procedure learning using
egocentric videos, we propose the EgoProceL dataset consisting of 62 hours of
videos captured by 130 subjects performing 16 tasks. The source code and the
dataset are available on the project page https://sid2697.github.io/egoprocel/.
- Abstract(参考訳): 手順学習は、キーステップを識別し、タスクを実行する論理的順序を決定することを含む。
既存のアプローチでは、手順を学ぶために第三者のビデオを使用し、操作されたオブジェクトの外観を小さくし、しばしば俳優によってオクルードされ、重大なエラーを引き起こす。
対照的に、ファーストパーソン(エゴセントリック)のウェアラブルカメラから得られたビデオは、そのアクションの邪魔にならない明確なビューを提供する。
しかし エゴセントリックビデオからの手順学習は困難です
(a)着用者の頭部の動きにより、カメラビューが極端に変化し、
(b)ビデオの制約のない性質による無関係なフレームの存在。
このため、現在の最先端の手法では、アクションがほぼ同じ時間に発生し、同じ持続時間であるという仮定は保たない。
代わりに,ビデオ間のキーステップ間の時間的対応によって提供される信号を使用することを提案する。
そこで本研究では,手続き学習のための新しい自己教師付き対応と切断(cnc)フレームワークを提案する。
CnCは、複数のビデオにまたがるキーステップ間の時間的対応を特定し、利用する。
我々の実験によると、CnCはベンチマークのProceLとCrossTaskのデータセットをそれぞれ5.2%と6.3%上回っている。
さらに,エゴセントリックなビデオを用いたプロシージャ学習のために,130人の被験者が16タスクをこなした62時間のビデオからなるEgoProceLデータセットを提案する。
ソースコードとデータセットはプロジェクトページhttps://sid2697.github.io/egoprocel/で入手できる。
関連論文リスト
- Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - VideoCutLER: Surprisingly Simple Unsupervised Video Instance
Segmentation [87.13210748484217]
VideoCutLERは、光学フローや自然ビデオのトレーニングのようなモーションベースの学習信号を使用することなく、教師なしのマルチインスタンスビデオセグメンテーションの簡単な方法である。
挑戦的なYouTubeVIS 2019ベンチマークで初めて、競争力のない教師なしの学習結果を示し、50.7%のAPvideo50を達成しました。
VideoCutLERは、監督されたビデオインスタンスセグメンテーションタスクのための強力な事前訓練モデルとしても機能し、APビデオの観点からは、YouTubeVIS 2019でDINOを15.9%上回っている。
論文 参考訳(メタデータ) (2023-08-28T17:10:12Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Video alignment using unsupervised learning of local and global features [0.0]
フレームのグローバルな特徴と局所的な特徴を利用した非教師なしアライメント手法を提案する。
特に、人物検出、ポーズ推定、VGGネットワークという3つのマシンビジョンツールを用いて、各ビデオフレームに効果的な機能を導入する。
このアプローチの主な利点は、トレーニングを必要とせず、トレーニングサンプルを収集することなく、新しいタイプのアクションに適用できることです。
論文 参考訳(メタデータ) (2023-04-13T22:20:54Z) - Learning Procedure-aware Video Representation from Instructional Videos
and Their Narrations [22.723309913388196]
我々は,Web指導ビデオの大規模データセットとナレーションに基づいて,アクションステップと時間順序の両方を符号化した映像表現を学習する。
本手法は,各ステップ概念を符号化するビデオ表現と,ステップオーダにおける時間的依存と大きな個人変動の両方をキャプチャする深層確率モデルとを併用して学習する。
論文 参考訳(メタデータ) (2023-03-31T07:02:26Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Learning To Recognize Procedural Activities with Distant Supervision [96.58436002052466]
最大数分間の長いビデオから、きめ細かな多段階のアクティビティを分類する問題を考察する。
提案手法は,ビデオから自動書き起こされた音声の雑音に合う言語モデルを用いて,知識ベースで記述をステップする。
論文 参考訳(メタデータ) (2022-01-26T15:06:28Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Exploring Relations in Untrimmed Videos for Self-Supervised Learning [17.670226952829506]
既存の自己教師付き学習手法は主にモデルトレーニングのためのトリミングビデオに依存している。
非時間ビデオ(ERUV)における探索関係(Exploring Relations in Untemporal Videos)と呼ばれる,新たな自己管理手法を提案する。
ERUVはよりリッチな表現を学習することができ、最先端の自己管理手法よりも優れたマージンを持つ。
論文 参考訳(メタデータ) (2020-08-06T15:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。