論文の概要: Self-supervised Learning for Unintentional Action Prediction
- arxiv url: http://arxiv.org/abs/2209.12074v1
- Date: Sat, 24 Sep 2022 19:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 16:17:06.509913
- Title: Self-supervised Learning for Unintentional Action Prediction
- Title(参考訳): 意図しない行動予測のための自己指導型学習
- Authors: Olga Zatsarynna, Yazan Abu Farha, Juergen Gall
- Abstract要約: 本研究では,意図しない行動予測のための自己指導型表現学習の課題について検討する。
ビデオのグローバルなコンテキストは、下流の3つのタスクのよい表現を学ぶために必要であることを示す。
補足資料では,ビデオ中の異常を検出するために,学習した表現を使用できることを示す。
- 参考スコア(独自算出の注目度): 23.1028903711402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distinguishing if an action is performed as intended or if an intended action
fails is an important skill that not only humans have, but that is also
important for intelligent systems that operate in human environments.
Recognizing if an action is unintentional or anticipating if an action will
fail, however, is not straightforward due to lack of annotated data. While
videos of unintentional or failed actions can be found in the Internet in
abundance, high annotation costs are a major bottleneck for learning networks
for these tasks. In this work, we thus study the problem of self-supervised
representation learning for unintentional action prediction. While previous
works learn the representation based on a local temporal neighborhood, we show
that the global context of a video is needed to learn a good representation for
the three downstream tasks: unintentional action classification, localization
and anticipation. In the supplementary material, we show that the learned
representation can be used for detecting anomalies in videos as well.
- Abstract(参考訳): アクションが意図したように実行されるか、意図したアクションが失敗したかの区別は、人間が持っているだけでなく、人間の環境で動作するインテリジェントなシステムにとっても重要なスキルである。
しかし、アクションが意図しないかどうか、あるいはアクションが失敗するかどうかを予測することは、アノテーション付きデータがないため、簡単ではない。
意図しない行動や失敗した行動のビデオはインターネットで豊富に見ることができるが、高いアノテーションコストはこれらのタスクの学習ネットワークにとって大きなボトルネックである。
本研究では,意図しない行動予測のための自己指導型表現学習の課題について検討する。
先行研究は,局所的な時間的近傍に基づく表現を学習する一方で,映像のグローバルコンテキストは,意図しない動作分類,局所化,予測という3つの下流課題の適切な表現を学習するために必要であることを示す。
補足資料では,ビデオ中の異常を検出するために,学習した表現を使用できることを示す。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Leveraging Self-Supervised Training for Unintentional Action Recognition [82.19777933440143]
我々は、アクションが意図的なものから意図しないものへと移行するビデオのポイントを特定したい。
本研究では,動き速度,動き方向,意図しない動作を認識するために,固有バイアスを利用する多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T21:36:36Z) - Tragedy Plus Time: Capturing Unintended Human Activities from
Weakly-labeled Videos [31.1632730473261]
W-Oopsは2100の意図しない人間のアクションビデオで構成され、44のゴール指向と30の意図しないビデオレベルのアクティビティラベルが人間のアノテーションを通じて収集されている。
本稿では,映像中の意図しない時間領域だけでなく,目標指向の局所化のための弱教師付きアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-04-28T14:56:43Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Adding Knowledge to Unsupervised Algorithms for the Recognition of
Intent [3.0079490585515343]
我々は,シーン内のエージェントの動作が意図的か意図的かを,その3Dキネマティクスに基づいて推定できるアルゴリズムを導出する。
この基本的な知識を追加することで、単純な教師なしのアルゴリズムがもたらされることを示す。
これらのデータセットの実験により、我々のアルゴリズムは、トレーニングデータなしでも、アクションが意図的かどうかを認識できることが示されている。
論文 参考訳(メタデータ) (2020-11-12T05:57:09Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Learning Goals from Failure [30.071336708348472]
ビデオにおける観察可能な人間の行動の背景にある目標を予測する枠組みを導入する。
発達心理学のエビデンスに触発され、意図しない行動のビデオを利用して、直接の監督なしにゴールの映像表現を学習する。
論文 参考訳(メタデータ) (2020-06-28T17:16:49Z) - Evolving Losses for Unsupervised Video Representation Learning [91.2683362199263]
大規模未ラベル映像データから映像表現を学習する新しい手法を提案する。
提案した教師なし表現学習では,単一のRGBネットワークが実現し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-02-26T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。