論文の概要: Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning
- arxiv url: http://arxiv.org/abs/2104.14131v1
- Date: Thu, 29 Apr 2021 06:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 21:24:27.101526
- Title: Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning
- Title(参考訳): 予測学習を用いたストリーミング動画におけるアクター中心表現の学習
- Authors: Sathyanarayanan N. Aakur, Sudeep Sarkar
- Abstract要約: ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.757368441841123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Event perception tasks such as recognizing and localizing actions in
streaming videos are essential for tackling visual understanding tasks.
Progress has primarily been driven by the use of large-scale, annotated
training data in a supervised manner. In this work, we tackle the problem of
learning \textit{actor-centered} representations through the notion of
continual hierarchical predictive learning to localize actions in streaming
videos without any training annotations. Inspired by cognitive theories of
event perception, we propose a novel, self-supervised framework driven by the
notion of hierarchical predictive learning to construct actor-centered features
by attention-based contextualization. Extensive experiments on three benchmark
datasets show that the approach can learn robust representations for localizing
actions using only one epoch of training, i.e., we train the model continually
in streaming fashion - one frame at a time, with a single pass through training
videos. We show that the proposed approach outperforms unsupervised and weakly
supervised baselines while offering competitive performance to fully supervised
approaches. Finally, we show that the proposed model can generalize to
out-of-domain data without significant loss in performance without any
finetuning for both the recognition and localization tasks.
- Abstract(参考訳): ストリーミングビデオにおける認識やローカライズといったイベント認識タスクは、視覚的理解タスクに取り組む上で不可欠である。
進歩は、主に、教師付きの方法で、大規模な注釈付きトレーニングデータを使用することによってもたらされている。
本研究では,継続的な階層的予測学習の概念を用いて,ストリーミング映像における行動のローカライズを学習する手法である \textit{actor-centered} 表現を学習する。
イベント知覚の認知理論に着想を得て,階層的予測学習の概念を駆使して,注意に基づく文脈化によってアクタ中心の特徴を構築する新しい自己教師付きフレームワークを提案する。
3つのベンチマークデータセットの大規模な実験によると、このアプローチは1つのエポックなトレーニング、すなわち1フレームずつのストリーミング形式でモデルをトレーニングし、トレーニングビデオに1回パスすることで、アクションをローカライズするための堅牢な表現を学ぶことができる。
提案手法は,教師なしのベースラインと弱い教師なしのベースラインを上回り,完全に監督されたアプローチに競争力のある性能を提供する。
最後に,提案手法は,認識処理と局所処理の両方を微調整することなく,性能を損なうことなく,ドメイン外データに一般化できることを示す。
関連論文リスト
- ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。
解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。
パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文 参考訳(メタデータ) (2020-11-05T18:52:46Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Action Localization through Continual Predictive Learning [14.582013761620738]
本稿では,自己監督のための特徴レベルの予測を用いた連続学習に基づく新しいアプローチを提案する。
我々は、CNNエンコーダと組み合わされたLSTMのスタックと、新しいアテンション機構を用いて、ビデオ内のイベントをモデル化し、このモデルを使用して将来のフレームの高レベル機能を予測する。
この自己教師型フレームワークは他のアプローチほど複雑ではないが、ラベリングとローカライゼーションの両方で堅牢な視覚表現を学ぶのに非常に効果的である。
論文 参考訳(メタデータ) (2020-03-26T23:32:43Z) - Weakly-Supervised Multi-Level Attentional Reconstruction Network for
Grounding Textual Queries in Videos [73.4504252917816]
ビデオ中のテキストクエリを時間的にグラウンド化するタスクは、与えられたクエリに意味的に対応する1つのビデオセグメントをローカライズすることである。
既存のアプローチのほとんどは、トレーニングのためのセグメント-セマンスペア(時間アノテーション)に依存しており、通常は現実のシナリオでは利用できない。
トレーニング段階では,映像文ペアのみに依存するマルチレベル注意再構築ネットワーク(MARN)と呼ばれる,効果的な弱教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-03-16T07:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。