Fugu-MT 論文翻訳(概要): Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition

論文の概要: Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition

arxiv url: http://arxiv.org/abs/2307.07469v1
Date: Fri, 14 Jul 2023 16:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-17 13:14:53.395890
Title: Interactive Spatiotemporal Token Attention Network for Skeleton-based General Interactive Action Recognition
Title（参考訳）: 骨格に基づく一般対話行動認識のための対話時空間トークン注意ネットワーク
Authors: Yuhang Wen, Zixuan Tang, Yunsheng Pang, Beichen Ding, Mengyuan Liu
Abstract要約: 本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。 ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
参考スコア（独自算出の注目度）: 8.513434732050749
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recognizing interactive action plays an important role in human-robot interaction and collaboration. Previous methods use late fusion and co-attention mechanism to capture interactive relations, which have limited learning capability or inefficiency to adapt to more interacting entities. With assumption that priors of each entity are already known, they also lack evaluations on a more general setting addressing the diversity of subjects. To address these problems, we propose an Interactive Spatiotemporal Token Attention Network (ISTA-Net), which simultaneously model spatial, temporal, and interactive relations. Specifically, our network contains a tokenizer to partition Interactive Spatiotemporal Tokens (ISTs), which is a unified way to represent motions of multiple diverse entities. By extending the entity dimension, ISTs provide better interactive representations. To jointly learn along three dimensions in ISTs, multi-head self-attention blocks integrated with 3D convolutions are designed to capture inter-token correlations. When modeling correlations, a strict entity ordering is usually irrelevant for recognizing interactive actions. To this end, Entity Rearrangement is proposed to eliminate the orderliness in ISTs for interchangeable entities. Extensive experiments on four datasets verify the effectiveness of ISTA-Net by outperforming state-of-the-art methods. Our code is publicly available at https://github.com/Necolizer/ISTA-Net
Abstract（参考訳）: インタラクティブなアクションを認識することは、人間とロボットのインタラクションとコラボレーションにおいて重要な役割を果たす。従来の手法では、より相互作用するエンティティに適応するための学習能力や非効率性が制限された対話的関係を捉えるためにレイト・フュージョンとコ・アテンション・メカニズムを使用する。それぞれのエンティティの優先順位がすでに知られていると仮定すると、それらはさらに一般的な設定で主題の多様性に取り組む評価も欠落している。そこで本稿では,空間的,時間的,インタラクティブな関係を同時にモデル化するインタラクティブな時空間トークンアテンションネットワーク(ista-net)を提案する。具体的には,対話型時空間トークン(IST)を分割するトークンをネットワークに含んでおり,多種多様なエンティティの動作を表現する統一的な方法である。エンティティの次元を拡張することで、ISTはより良いインタラクティブな表現を提供する。 ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。相関をモデル化する場合、厳密なエンティティ順序付けは、通常、対話的なアクションを認識するために無関係である。この目的のために、交換可能なエンティティに対するISTの順序をなくすためにEntity Rearrangementが提案されている。 4つのデータセットに対する大規模な実験により、ISTA-Netの有効性が実証された。私たちのコードはhttps://github.com/Necolizer/ISTA-Netで公開されています。

関連論文リスト

Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Learning Adaptive Node Selection with External Attention for Human Interaction Recognition [11.88304209222785]
ほとんどのGCNベースの手法は、個人を独立したグラフとして相互作用させ、固有の相互依存を無視している。本研究では,外部注意ネットワークを用いたアクティブノード選択(ASEA)を提案する。本手法は,各個人がGCNを用いて個人内関係を把握し,行動の詳細な表現を容易にする。
論文参考訳（メタデータ） (2025-07-05T07:47:00Z)
Geometric Visual Fusion Graph Neural Networks for Multi-Person Human-Object Interaction Recognition in Videos [14.198003271084799]
ビデオにおけるHuman-Object Interaction(HOI)認識には、時間とともに進化していく視覚的パターンと幾何学的関係の両方を理解する必要がある。本稿では,相互依存型実体グラフ学習と組み合わせた2重アテンション特徴フュージョンを用いたGeometric Visual Fusion Graph Neural Network (GeoVis-GNN)を提案する。実世界のシナリオにHOI認識を前進させるために、コンカレント部分的相互作用データセットを導入する。
論文参考訳（メタデータ） (2025-06-03T22:51:44Z)
Generating Fine Details of Entity Interactions [17.130839907951877]
本稿では,3つの主要なシナリオをカバーする1000のきめ細かいプロンプトを持つインタラクション中心のデータセットであるInterActingを紹介する。本稿では,相互作用生成問題に対処する分解強化手法を提案する。当社のアプローチであるDetailScribeは、VLMを用いて生成した画像を批判し、拡散過程にターゲットの介入を適用する。
論文参考訳（メタデータ） (2025-04-11T17:24:58Z)
Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文参考訳（メタデータ） (2024-10-15T07:35:51Z)
Interaction Event Forecasting in Multi-Relational Recursive HyperGraphs: A Temporal Point Process Approach [12.142292322071299]
本研究は,マルチリレーショナル再帰的ハイパーグラフにおける高次相互作用事象の予測問題に対処する。提案したモデルであるtextitRelational Recursive Hyperedge Temporal Point Process (RRHyperTPP) は,歴史的相互作用パターンに基づいて動的ノード表現を学習するエンコーダを使用する。我々は,従来のインタラクション予測手法よりも優れた性能を示すことを示す。
論文参考訳（メタデータ） (2024-04-27T15:46:54Z)
Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-07T07:26:06Z)
Dynamic Relation Discovery and Utilization in Multi-Entity Time Series Forecasting [92.32415130188046]
多くの現実世界のシナリオでは、実体の間に決定的かつ暗黙的な関係が存在する可能性がある。本稿では,自動グラフ学習(A2GNN)を用いたマルチグラフニューラルネットワークを提案する。
論文参考訳（メタデータ） (2022-02-18T11:37:04Z)
Multi-Relation Aware Temporal Interaction Network Embedding [6.964492092209715]
時間的相互作用ネットワークの埋め込みは、時間的相互作用ネットワーク内の情報を効果的にマイニングすることができる。既存の時間的相互作用ネットワークの埋め込み手法は、近隣ノードの履歴的相互作用関係のみを使用する。 MRATE(Multi-relation aware temporal interaction network embedded method)を提案する。
論文参考訳（メタデータ） (2021-10-09T08:28:22Z)
Spatio-Temporal Interaction Graph Parsing Networks for Human-Object Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文参考訳（メタデータ） (2021-08-19T11:57:27Z)
Learning Asynchronous and Sparse Human-Object Interaction in Videos [56.73059840294019]
Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。 ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
論文参考訳（メタデータ） (2021-03-03T23:43:55Z)
DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification [77.59549450705384]
ダイアログシステムでは、ダイアログアクト認識と感情分類は2つの相関タスクである。既存のシステムのほとんどは、それらを別々のタスクとして扱うか、単に2つのタスクを一緒にモデル化するだけです。本稿では,2つのタスク間の相互作用をモデル化するディープ・コ・インタラクティブ・リレーショナル・ネットワーク(DCR-Net)を提案する。
論文参考訳（メタデータ） (2020-08-16T14:13:32Z)
Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文参考訳（メタデータ） (2020-03-09T17:05:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。