Fugu-MT 論文翻訳(概要): Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition

論文の概要: Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition

arxiv url: http://arxiv.org/abs/2002.03982v2
Date: Mon, 7 Dec 2020 18:50:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-02 09:08:11.913553
Title: Self-Supervised Joint Encoding of Motion and Appearance for First Person Action Recognition
Title（参考訳）: 人物の行動認識のための動作と外観の自己監督的共同符号化
Authors: Mirco Planamente, Andrea Bottino, Barbara Caputo
Abstract要約: これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
参考スコア（独自算出の注目度）: 19.93779132095822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Wearable cameras are becoming more and more popular in several applications, increasing the interest of the research community in developing approaches for recognizing actions from the first-person point of view. An open challenge in egocentric action recognition is that videos lack detailed information about the main actor's pose and thus tend to record only parts of the movement when focusing on manipulation tasks. Thus, the amount of information about the action itself is limited, making crucial the understanding of the manipulated objects and their context. Many previous works addressed this issue with two-stream architectures, where one stream is dedicated to modeling the appearance of objects involved in the action, and another to extracting motion features from optical flow. In this paper, we argue that learning features jointly from these two information channels is beneficial to capture the spatio-temporal correlations between the two better. To this end, we propose a single stream architecture able to do so, thanks to the addition of a self-supervised block that uses a pretext motion prediction task to intertwine motion and appearance knowledge. Experiments on several publicly available databases show the power of our approach.
Abstract（参考訳）: ウェアラブルカメラは、いくつかのアプリケーションでますます人気が高まり、ファーストパーソンの観点からアクションを認識するためのアプローチを開発する研究コミュニティの関心が高まっている。エゴセントリックなアクション認識におけるオープンな課題は、ビデオがメインアクターのポーズに関する詳細な情報を欠いているため、操作タスクに焦点を合わせると、動きの一部のみを記録する傾向があることである。したがって、アクション自体に関する情報量は限られており、操作されたオブジェクトとそのコンテキストの理解が極めて重要である。以前の多くの作品は、2つのストリームアーキテクチャでこの問題に対処しており、1つのストリームはアクションに関連するオブジェクトの出現をモデル化すること、もう1つは光学フローから動きの特徴を抽出することである。本稿では,これら2つの情報チャネルから学習する特徴が,両者の時空間的相関をよりよく捉えるのに有用である,と論じる。そこで本稿では,プリテキスト動作予測タスクを用いて動作と外観の知識を連動させる自己教師付きブロックの追加により,これを実現する単一ストリームアーキテクチャを提案する。いくつかの公開データベースの実験は、我々のアプローチの力を示しています。

関連論文リスト

Learning Video Generation for Robotic Manipulation with Collaborative Trajectory Control [72.00655365269]
本稿では,協調的軌跡定式化を通じてオブジェクト間ダイナミクスをモデル化する新しいフレームワークであるRoboMasterを紹介する。オブジェクトを分解する従来の方法とは異なり、我々のコアは、相互作用プロセスを3つのサブステージ(相互作用前、相互作用後、相互作用後)に分解することである。提案手法は既存の手法よりも優れており,ロボット操作のための軌道制御ビデオ生成における最先端性能を確立している。
論文参考訳（メタデータ） (2025-06-02T17:57:06Z)
Joint-Motion Mutual Learning for Pose Estimation in Videos [21.77871402339573]
ビデオにおける人間のポーズ推定は、コンピュータビジョンの領域において、説得力がありながら挑戦的な課題だった。最近の手法では、ポーズ推定のためにバックボーンネットワークによって生成された複数フレームの視覚的特徴を統合することを目指している。ポーズ推定のための新しい共同動作相互学習フレームワークを提案する。
論文参考訳（メタデータ） (2024-08-05T07:37:55Z)
Multi-view Action Recognition via Directed Gromov-Wasserstein Discrepancy [12.257725479880458]
行動認識はコンピュータビジョンにおける人気のある研究トピックの1つとなっている。本稿では,アクションビデオの2つの異なる視点から2つの注意の類似性を計算する多視点アテンション整合性手法を提案する。我々のアプローチでは、単一ビューデータセットのトレーニングにおいて、新しいビューからの機能を暗黙的にレンダリングするために、Neural Radiance Fieldというアイデアを適用しています。
論文参考訳（メタデータ） (2024-05-02T14:43:21Z)
Action Recognition with Multi-stream Motion Modeling and Mutual Information Maximization [44.73161606369333]
行動認識は、人工知能の根本的で興味深い問題である。本稿では,マルチストリームコンポーネントとチャネルアテンションを備えた新しいStream-GCNネットワークを提案する。提案手法は,3つのベンチマークデータセット上での最先端性能の設定を行う。
論文参考訳（メタデータ） (2023-06-13T06:56:09Z)
Learning to Refactor Action and Co-occurrence Features for Temporal Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文参考訳（メタデータ） (2022-06-23T06:30:08Z)
Exploring Motion and Appearance Information for Temporal Sentence Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文参考訳（メタデータ） (2022-01-03T02:44:18Z)
Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文参考訳（メタデータ） (2021-10-05T15:39:11Z)
JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion Retargeting [53.28477676794658]
ビデオにおける教師なしの動作はディープ・ニューラル・ネットワークによって大幅に進歩しました JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文参考訳（メタデータ） (2021-06-17T17:32:32Z)
Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文参考訳（メタデータ） (2021-04-15T17:59:32Z)
Motion Guided Attention Fusion to Recognize Interactions from Videos [40.1565059238891]
ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
論文参考訳（メタデータ） (2021-04-01T17:44:34Z)
Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文参考訳（メタデータ） (2020-03-09T16:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。