論文の概要: Motion Guided Attention Fusion to Recognize Interactions from Videos
- arxiv url: http://arxiv.org/abs/2104.00646v1
- Date: Thu, 1 Apr 2021 17:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:33:13.544832
- Title: Motion Guided Attention Fusion to Recognize Interactions from Videos
- Title(参考訳): 動画からのインタラクション認識のための動作ガイド付注意融合
- Authors: Tae Soo Kim, Jonathan Jones, Gregory D. Hager
- Abstract要約: ビデオからの細かいインタラクションを認識するためのデュアルパスアプローチを提案する。
動作経路のボトムアップ特徴と物体検出から捉えた特徴を融合させて、動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターがこれまで見つからなかった物体と相互作用する動作を認識する。
- 参考スコア(独自算出の注目度): 40.1565059238891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a dual-pathway approach for recognizing fine-grained interactions
from videos. We build on the success of prior dual-stream approaches, but make
a distinction between the static and dynamic representations of objects and
their interactions explicit by introducing separate motion and object detection
pathways. Then, using our new Motion-Guided Attention Fusion module, we fuse
the bottom-up features in the motion pathway with features captured from object
detections to learn the temporal aspects of an action. We show that our
approach can generalize across appearance effectively and recognize actions
where an actor interacts with previously unseen objects. We validate our
approach using the compositional action recognition task from the
Something-Something-v2 dataset where we outperform existing state-of-the-art
methods. We also show that our method can generalize well to real world tasks
by showing state-of-the-art performance on recognizing humans assembling
various IKEA furniture on the IKEA-ASM dataset.
- Abstract(参考訳): 本稿では,ビデオからのきめ細かいインタラクションを認識するための双方向アプローチを提案する。
従来の二重ストリームアプローチの成功に基づいて構築するが、物体の静的表現と動的表現を区別し、物体検出経路と物体検出経路を分離することにより、その相互作用を明示する。
次に,新しいモーションガイド型アテンション・フュージョン・モジュールを用いて,動作経路のボトムアップ特徴と物体検出から抽出した特徴を融合し,動作の時間的側面を学習する。
提案手法は外見を効果的に一般化し,アクターが未確認のオブジェクトと相互作用する動作を認識する。
提案手法は, 既存の最先端手法に勝る, something-something-v2データセットから合成動作認識タスクを用いて検証する。
また,ikea-asmデータセット上で様々なikea家具を組み立てた人間の認識において,最先端のパフォーマンスを示すことにより,実世界のタスクにうまく一般化できることを示す。
関連論文リスト
- Uncertainty-Guided Appearance-Motion Association Network for Out-of-Distribution Action Detection [4.938957922033169]
セマンティックシフトでテストサンプルを検出し、拒否するOOD(Out-of-Distribution)検出ターゲット。
我々は,新しい不確実性誘導外観運動ネットワーク(UAAN)を提案する。
UAANは最先端の手法をかなりの差で打ち負かし、その効果を実証する。
論文 参考訳(メタデータ) (2024-09-16T02:53:49Z) - Simultaneous Detection and Interaction Reasoning for Object-Centric Action Recognition [21.655278000690686]
エンドツーエンドのオブジェクト中心のアクション認識フレームワークを提案する。
同時に1つのステージで検出と相互作用の推論を行う。
我々はSomes-ElseとIkea-Assemblyという2つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2024-04-18T05:06:12Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Automatic Interaction and Activity Recognition from Videos of Human
Manual Demonstrations with Application to Anomaly Detection [0.0]
本稿では、シーングラフを利用して、動きパターンとコンテキストを同時に処理しながら、画像シーケンスから重要な相互作用特徴を抽出する。
イベントベースの自動ビデオセグメンテーションとクラスタリングを導入し、同様のイベントをグループ化して、監視されたアクティビティが正しく実行されるかどうかを検出する。
論文 参考訳(メタデータ) (2023-04-19T16:15:23Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Learning Visual Affordance Grounding from Demonstration Videos [76.46484684007706]
Affordance Groundingは、画像/ビデオから人とオブジェクト間のすべての可能な相互作用領域を分割することを目的としている。
実演ビデオにおける手の位置と動作から得られる手掛かりを活用できる,手支援型住宅地すべりネットワーク(HAGNet)を提案する。
論文 参考訳(メタデータ) (2021-08-12T11:45:38Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - Pose And Joint-Aware Action Recognition [87.4780883700755]
本稿では,まず,共有動作エンコーダを用いて各関節の動作特徴を別々に抽出する,関節に基づく動作認識の新しいモデルを提案する。
私たちのジョイントセレクタモジュールは、そのタスクの最も識別性の高いジョイントを選択するために、ジョイント情報を再重み付けします。
JHMDB, HMDB, Charades, AVA アクション認識データセットにおける最先端のジョイントベースアプローチに対する大きな改善点を示す。
論文 参考訳(メタデータ) (2020-10-16T04:43:34Z) - Self-Supervised Joint Encoding of Motion and Appearance for First Person
Action Recognition [19.93779132095822]
これら2つの情報チャネルを相互に介在する学習機能は有用である,と我々は主張する。
本稿では,自己教師付き動作予測ブロックの追加により,単一ストリームアーキテクチャで実現可能であることを提案する。
いくつかの公開データベースの実験は、我々のアプローチの力を示しています。
論文 参考訳(メタデータ) (2020-02-10T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。