論文の概要: Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition
- arxiv url: http://arxiv.org/abs/2002.03982v2
- Date: Mon, 7 Dec 2020 18:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 09:08:11.913553
- Title: Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition
- Title(参考訳): 人物の行動認識のための動作と外観の自己監督的共同符号化
- Authors: Mirco Planamente, Andrea Bottino, Barbara Caputo
- Abstract要約: これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
- 参考スコア(独自算出の注目度): 19.93779132095822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wearable cameras are becoming more and more popular in several applications,
increasing the interest of the research community in developing approaches for
recognizing actions from the first-person point of view. An open challenge in
egocentric action recognition is that videos lack detailed information about
the main actor's pose and thus tend to record only parts of the movement when
focusing on manipulation tasks. Thus, the amount of information about the
action itself is limited, making crucial the understanding of the manipulated
objects and their context. Many previous works addressed this issue with
two-stream architectures, where one stream is dedicated to modeling the
appearance of objects involved in the action, and another to extracting motion
features from optical flow. In this paper, we argue that learning features
jointly from these two information channels is beneficial to capture the
spatio-temporal correlations between the two better. To this end, we propose a
single stream architecture able to do so, thanks to the addition of a
self-supervised block that uses a pretext motion prediction task to intertwine
motion and appearance knowledge. Experiments on several publicly available
databases show the power of our approach.
- Abstract(参考訳): ウェアラブルカメラは、いくつかのアプリケーションでますます人気が高まり、ファーストパーソンの観点からアクションを認識するためのアプローチを開発する研究コミュニティの関心が高まっている。
エゴセントリックなアクション認識におけるオープンな課題は、ビデオがメインアクターのポーズに関する詳細な情報を欠いているため、操作タスクに焦点を合わせると、動きの一部のみを記録する傾向があることである。
したがって、アクション自体に関する情報量は限られており、操作されたオブジェクトとそのコンテキストの理解が極めて重要である。
以前の多くの作品は、2つのストリームアーキテクチャでこの問題に対処しており、1つのストリームはアクションに関連するオブジェクトの出現をモデル化すること、もう1つは光学フローから動きの特徴を抽出することである。
本稿では,これら2つの情報チャネルから学習する特徴が,両者の時空間的相関をよりよく捉えるのに有用である,と論じる。
そこで本稿では,プリテキスト動作予測タスクを用いて動作と外観の知識を連動させる自己教師付きブロックの追加により,これを実現する単一ストリームアーキテクチャを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
関連論文リスト
- Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。
最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。
ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-05T07:37:55Z) - Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。
本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。
我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文 参考訳(メタデータ) (2024-05-02T14:43:21Z) - Action Recognition with Multi-stream Motion Modeling and Mutual
Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。
本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。
提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文 参考訳(メタデータ) (2023-06-13T06:56:09Z) - Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文 参考訳(メタデータ) (2021-04-01T17:44:34Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。