論文の概要: Modelling Spatio-Temporal Interactions for Compositional Action
Recognition
- arxiv url: http://arxiv.org/abs/2305.02673v1
- Date: Thu, 4 May 2023 09:37:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:22:01.331081
- Title: Modelling Spatio-Temporal Interactions for Compositional Action
Recognition
- Title(参考訳): 構成行動認識のための時空間相互作用のモデル化
- Authors: Ramanathan Rajendiran, Debaditya Roy, Basura Fernando
- Abstract要約: 人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
本研究では,インタラクション中心のアプローチが構成的Somes-Elseデータセットに与える影響を示す。
人-物-物間相互作用モデリングのアプローチは,標準的な行動認識データセットにおいても有効である。
- 参考スコア(独自算出の注目度): 21.8767024220287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans have the natural ability to recognize actions even if the objects
involved in the action or the background are changed. Humans can abstract away
the action from the appearance of the objects and their context which is
referred to as compositionality of actions. Compositional action recognition
deals with imparting human-like compositional generalization abilities to
action-recognition models. In this regard, extracting the interactions between
humans and objects forms the basis of compositional understanding. These
interactions are not affected by the appearance biases of the objects or the
context. But the context provides additional cues about the interactions
between things and stuff. Hence we need to infuse context into the human-object
interactions for compositional action recognition. To this end, we first design
a spatial-temporal interaction encoder that captures the human-object (things)
interactions. The encoder learns the spatio-temporal interaction tokens
disentangled from the background context. The interaction tokens are then
infused with contextual information from the video tokens to model the
interactions between things and stuff. The final context-infused
spatio-temporal interaction tokens are used for compositional action
recognition. We show the effectiveness of our interaction-centric approach on
the compositional Something-Else dataset where we obtain a new state-of-the-art
result of 83.8% top-1 accuracy outperforming recent important object-centric
methods by a significant margin. Our approach of explicit human-object-stuff
interaction modeling is effective even for standard action recognition datasets
such as Something-Something-V2 and Epic-Kitchens-100 where we obtain comparable
or better performance than state-of-the-art.
- Abstract(参考訳): 人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
人間は、アクションの構成性と呼ばれるオブジェクトとそのコンテキストの出現から、アクションを抽象化することができる。
構成的行動認識は、人間のような構成的一般化能力を行動認識モデルに付与する。
この観点から、人間と物体の相互作用を抽出することは、構成的理解の基礎となる。
これらの相互作用は、オブジェクトやコンテキストの外観バイアスに影響されない。
しかし、コンテキストは物と物の間の相互作用に関する追加の手がかりを提供する。
したがって、構成的行動認識のための人間と物体の相互作用にコンテキストを注入する必要がある。
この目的のために、まず、人間と物体の相互作用をキャプチャする時空間相互作用エンコーダを設計する。
エンコーダは、背景コンテキストから切り離された時空間相互作用トークンを学習する。
インタラクショントークンは、ビデオトークンからのコンテキスト情報と融合して、物と物の間のインタラクションをモデル化します。
最終的な文脈注入時空間相互作用トークンは、合成行動認識に使用される。
我々は,最近の重要な対象中心法よりも83.8%の精度で,新たな最先端結果が得られるような,Somes-Elseデータセットに対するインタラクション中心のアプローチの有効性を示す。
人・物・物間の相互作用を明示的にモデル化する手法は,Something-V2 や Epic-Kitchens-100 のような標準的な行動認識データセットにおいても有効である。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Compositional Human-Scene Interaction Synthesis with Semantic Control [16.93177243590465]
高レベルのセマンティック仕様によって制御された所定の3Dシーンと相互作用する人間を合成することを目的としている。
本研究では,3次元人体表面点と3次元物体を共同符号化したトランスフォーマーを用いた新しい生成モデルを設計する。
人間が同時に複数の物体と相互作用できる相互作用の構成的性質に着想を得て、相互作用のセマンティクスを原子間相互作用-対象対の様々な数の合成として定義する。
論文 参考訳(メタデータ) (2022-07-26T11:37:44Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Human Interaction Recognition Framework based on Interacting Body Part
Attention [24.913372626903648]
人間の相互作用の暗黙的および明示的な表現を同時に考慮する新しいフレームワークを提案する。
提案手法は, 相互作用部位の注意力を用いて, 異なる相互作用の微妙な違いを捉える。
提案手法の有効性を4つの公開データセットを用いて検証する。
論文 参考訳(メタデータ) (2021-01-22T06:52:42Z) - Human and Machine Action Prediction Independent of Object Information [1.0806206850043696]
行動中に変化する物体間関係の役割について検討する。
我々は平均して、アクションの持続時間の64%以下で行動を予測する。
論文 参考訳(メタデータ) (2020-04-22T12:13:25Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。