論文の概要: Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition
- arxiv url: http://arxiv.org/abs/2307.07469v1
- Date: Fri, 14 Jul 2023 16:51:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 13:14:53.395890
- Title: Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition
- Title(参考訳): 骨格に基づく一般対話行動認識のための対話時空間トークン注意ネットワーク
- Authors: Yuhang Wen, Zixuan Tang, Yunsheng Pang, Beichen Ding, Mengyuan Liu
- Abstract要約: 本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
- 参考スコア(独自算出の注目度): 8.513434732050749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing interactive action plays an important role in human-robot
interaction and collaboration. Previous methods use late fusion and
co-attention mechanism to capture interactive relations, which have limited
learning capability or inefficiency to adapt to more interacting entities. With
assumption that priors of each entity are already known, they also lack
evaluations on a more general setting addressing the diversity of subjects. To
address these problems, we propose an Interactive Spatiotemporal Token
Attention Network (ISTA-Net), which simultaneously model spatial, temporal, and
interactive relations. Specifically, our network contains a tokenizer to
partition Interactive Spatiotemporal Tokens (ISTs), which is a unified way to
represent motions of multiple diverse entities. By extending the entity
dimension, ISTs provide better interactive representations. To jointly learn
along three dimensions in ISTs, multi-head self-attention blocks integrated
with 3D convolutions are designed to capture inter-token correlations. When
modeling correlations, a strict entity ordering is usually irrelevant for
recognizing interactive actions. To this end, Entity Rearrangement is proposed
to eliminate the orderliness in ISTs for interchangeable entities. Extensive
experiments on four datasets verify the effectiveness of ISTA-Net by
outperforming state-of-the-art methods. Our code is publicly available at
https://github.com/Necolizer/ISTA-Net
- Abstract(参考訳): インタラクティブなアクションを認識することは、人間とロボットのインタラクションとコラボレーションにおいて重要な役割を果たす。
従来の手法では、より相互作用するエンティティに適応するための学習能力や非効率性が制限された対話的関係を捉えるためにレイト・フュージョンとコ・アテンション・メカニズムを使用する。
それぞれのエンティティの優先順位がすでに知られていると仮定すると、それらはさらに一般的な設定で主題の多様性に取り組む評価も欠落している。
そこで本稿では,空間的,時間的,インタラクティブな関係を同時にモデル化するインタラクティブな時空間トークンアテンションネットワーク(ista-net)を提案する。
具体的には,対話型時空間トークン(IST)を分割するトークンをネットワークに含んでおり,多種多様なエンティティの動作を表現する統一的な方法である。
エンティティの次元を拡張することで、ISTはより良いインタラクティブな表現を提供する。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
相関をモデル化する場合、厳密なエンティティ順序付けは、通常、対話的なアクションを認識するために無関係である。
この目的のために、交換可能なエンティティに対するISTの順序をなくすためにEntity Rearrangementが提案されている。
4つのデータセットに対する大規模な実験により、ISTA-Netの有効性が実証された。
私たちのコードはhttps://github.com/Necolizer/ISTA-Netで公開されています。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Interaction Event Forecasting in Multi-Relational Recursive HyperGraphs: A Temporal Point Process Approach [12.142292322071299]
本研究は,マルチリレーショナル再帰的ハイパーグラフにおける高次相互作用事象の予測問題に対処する。
提案したモデルであるtextitRelational Recursive Hyperedge Temporal Point Process (RRHyperTPP) は,歴史的相互作用パターンに基づいて動的ノード表現を学習するエンコーダを使用する。
我々は,従来のインタラクション予測手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-04-27T15:46:54Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Dynamic Relation Discovery and Utilization in Multi-Entity Time Series
Forecasting [92.32415130188046]
多くの現実世界のシナリオでは、実体の間に決定的かつ暗黙的な関係が存在する可能性がある。
本稿では,自動グラフ学習(A2GNN)を用いたマルチグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-18T11:37:04Z) - Multi-Relation Aware Temporal Interaction Network Embedding [6.964492092209715]
時間的相互作用ネットワークの埋め込みは、時間的相互作用ネットワーク内の情報を効果的にマイニングすることができる。
既存の時間的相互作用ネットワークの埋め込み手法は、近隣ノードの履歴的相互作用関係のみを使用する。
MRATE(Multi-relation aware temporal interaction network embedded method)を提案する。
論文 参考訳(メタデータ) (2021-10-09T08:28:22Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-03T23:43:55Z) - DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act
Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。
既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。
本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文 参考訳(メタデータ) (2020-08-16T14:13:32Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。