論文の概要: THORN: Temporal Human-Object Relation Network for Action Recognition
- arxiv url: http://arxiv.org/abs/2204.09468v1
- Date: Wed, 20 Apr 2022 14:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:09:32.436997
- Title: THORN: Temporal Human-Object Relation Network for Action Recognition
- Title(参考訳): THORN:行動認識のための時間的人間オブジェクト関係ネットワーク
- Authors: Mohammed Guermal, Rui Dai, and Francois Bremond
- Abstract要約: ほとんどの行動認識モデルは、人間の活動が一つの出来事として扱われる。
本稿では,行動を定義するインタラクションの集合を活用することによって,人間の行動を認識することを提案する。
我々は、重要な人・物・物間の相互作用を利用して行動を予測するエンド・ツー・エンドのネットワークTHORNを提案する。
- 参考スコア(独自算出の注目度): 3.6704226968275258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most action recognition models treat human activities as unitary events.
However, human activities often follow a certain hierarchy. In fact, many human
activities are compositional. Also, these actions are mostly human-object
interactions. In this paper we propose to recognize human action by leveraging
the set of interactions that define an action. In this work, we present an
end-to-end network: THORN, that can leverage important human-object and
object-object interactions to predict actions. This model is built on top of a
3D backbone network. The key components of our model are: 1) An object
representation filter for modeling object. 2) An object relation reasoning
module to capture object relations. 3) A classification layer to predict the
action labels. To show the robustness of THORN, we evaluate it on
EPIC-Kitchen55 and EGTEA Gaze+, two of the largest and most challenging
first-person and human-object interaction datasets. THORN achieves
state-of-the-art performance on both datasets.
- Abstract(参考訳): ほとんどの行動認識モデルは人間の行動を単一事象として扱う。
しかし、人間の活動は特定の階層に従うことが多い。
実際、人間の活動の多くは構成的です。
また、これらのアクションは、ほとんどが人間とオブジェクトのインタラクションです。
本稿では,行動を定義する一連の相互作用を利用して,人間の行動を認識することを提案する。
本研究では,人間と物体の相互作用を利用して行動を予測する,エンドツーエンドネットワークTHORNを提案する。
このモデルは3Dバックボーンネットワーク上に構築されている。
私たちのモデルのキーとなるコンポーネントは
1) オブジェクトをモデル化するためのオブジェクト表現フィルタ。
2)オブジェクト関係をキャプチャするオブジェクト関係推論モジュール。
3) アクションラベルを予測するための分類層。
THORNの堅牢性を示すため,EPIC-Kitchen55とEGTEA Gaze+で評価した。
THORNは、両方のデータセットで最先端のパフォーマンスを達成する。
関連論文リスト
- Interpretable Action Recognition on Hard to Classify Actions [11.641926922266347]
人間は、明確に認識された物体と部分の間の批判的時間的関係を認識することによって、ビデオにおける複雑な活動を認識する。
これを模倣するために、物体と手の位置と動きを利用したモデルを構築し、その活動が起こっていることを認識します。
このモデルを改善するために、最も混乱した3つのクラス(このモデル)に注目し、3D情報の欠如が大きな問題であることを確認した。
オブジェクトの形状情報を既存のオブジェクトの特徴に統合するために,“Container”と“NotContainer”の違いを決定するために,最先端のオブジェクト検出モデルを微調整した。
論文 参考訳(メタデータ) (2024-09-19T21:23:44Z) - HIMO: A New Benchmark for Full-Body Human Interacting with Multiple Objects [86.86284624825356]
HIMOは、複数のオブジェクトと相互作用するフルボディの人間のデータセットである。
HIMOは3.3K 4D HOIシーケンスと4.08M 3D HOIフレームを含む。
論文 参考訳(メタデータ) (2024-07-17T07:47:34Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - Modelling Spatio-Temporal Interactions for Compositional Action
Recognition [21.8767024220287]
人間は、アクションやバックグラウンドに関わるオブジェクトが変更されても、アクションを認識する能力を持っている。
本研究では,インタラクション中心のアプローチが構成的Somes-Elseデータセットに与える影響を示す。
人-物-物間相互作用モデリングのアプローチは,標準的な行動認識データセットにおいても有効である。
論文 参考訳(メタデータ) (2023-05-04T09:37:45Z) - Task-Oriented Human-Object Interactions Generation with Implicit Neural
Representations [61.659439423703155]
TOHO: 命令型ニューラル表現を用いたタスク指向型ヒューマンオブジェクトインタラクション生成
本手法は時間座標のみでパラメータ化される連続運動を生成する。
この研究は、一般的なヒューマン・シーンの相互作用シミュレーションに向けて一歩前進する。
論文 参考訳(メタデータ) (2023-03-23T09:31:56Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。