論文の概要: Learning Asynchronous and Sparse Human-Object Interaction in Videos
- arxiv url: http://arxiv.org/abs/2103.02758v1
- Date: Wed, 3 Mar 2021 23:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:59:54.503429
- Title: Learning Asynchronous and Sparse Human-Object Interaction in Videos
- Title(参考訳): ビデオにおける非同期とスパースなヒューマンオブジェクトインタラクションの学習
- Authors: Romero Morais, Vuong Le, Svetha Venkatesh, Truyen Tran
- Abstract要約: Asynchronous-Sparse Interaction Graph Networks(ASSIGN)は、ビデオシーン内のエンティティに関連するインタラクションイベントの構造を自動的に検出します。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
- 参考スコア(独自算出の注目度): 56.73059840294019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human activities can be learned from video. With effective modeling it is
possible to discover not only the action labels but also the temporal
structures of the activities such as the progression of the sub-activities.
Automatically recognizing such structure from raw video signal is a new
capability that promises authentic modeling and successful recognition of
human-object interactions. Toward this goal, we introduce Asynchronous-Sparse
Interaction Graph Networks (ASSIGN), a recurrent graph network that is able to
automatically detect the structure of interaction events associated with
entities in a video scene. ASSIGN pioneers learning of autonomous behavior of
video entities including their dynamic structure and their interaction with the
coexisting neighbors. Entities' lives in our model are asynchronous to those of
others therefore more flexible in adaptation to complex scenarios. Their
interactions are sparse in time hence more faithful to the true underlying
nature and more robust in inference and learning. ASSIGN is tested on
human-object interaction recognition and shows superior performance in
segmenting and labeling of human sub-activities and object affordances from raw
videos. The native ability for discovering temporal structures of the model
also eliminates the dependence on external segmentation that was previously
mandatory for this task.
- Abstract(参考訳): 人間の活動はビデオから学ぶことができる。
効果的なモデリングにより、アクションラベルだけでなく、サブアクティビティの進行のようなアクティビティの時間的構造も発見できる。
生の映像信号からその構造を自動的に認識することは、本物のモデリングと人間とオブジェクトの相互作用の認識を成功させる新しい機能である。
この目的に向けて,ビデオシーン内のエンティティに関連付けられたインタラクションイベントの構造を自動的に検出できるリカレントグラフネットワークであるAsynchronous-Sparse Interaction Graph Networks (ASSIGN)を導入する。
先駆者は、その動的構造と共存する隣人との相互作用を含むビデオエンティティの自律的な振る舞いを学ぶ。
私たちのモデルにおけるエンティティの寿命は他のモデルと非同期なので、複雑なシナリオへの適応においてより柔軟です。
それらの相互作用は時間的にスパースするため、真の基礎となる性質に忠実であり、推論と学習においてより堅牢である。
ASSIGNは人間と物体の相互作用認識において試験され、人間のサブアクティビティのセグメンテーションおよびラベル付けにおいて優れた性能を示す。
モデルの時間構造を発見するネイティブな能力は、以前このタスクに必須だった外部セグメンテーションへの依存を排除します。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - Weakly Supervised Human-Object Interaction Detection in Video via
Contrastive Spatiotemporal Regions [81.88294320397826]
システムは、ビデオに人間と物体の相互作用が存在するか、あるいは人間と物体の実際の位置を知らない。
文節から収集した人-物間相互作用による6.5k以上のビデオからなるデータセットを提案する。
ビデオデータセットのアノテーションに適応した弱教師付きベースラインの性能向上を実証した。
論文 参考訳(メタデータ) (2021-10-07T15:30:18Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Human-like Relational Models for Activity Recognition in Video [8.87742125296885]
ディープニューラルネットワークによるビデオアクティビティ認識は多くのクラスにとって印象的だ。
ディープニューラルネットワークは、重要な関係を効果的に学習するのに苦労する。
本稿では,映像を時系列的に解釈する,より人間的な行動認識手法を提案する。
我々は,この手法を何かのデータセットの挑戦的なサブセットに適用し,挑戦的なアクティビティに基づくニューラルネットワークのベースラインに対するより堅牢なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-07-12T11:13:17Z) - Coarse Temporal Attention Network (CTA-Net) for Driver's Activity
Recognition [14.07119502083967]
ドライバーの活動は、同様の身体部分の動きで同じ被験者によって実行され、微妙な変化をもたらすため、異なります。
我々のモデルはCTA-Net(Coarse Temporal Attention Network)と呼ばれ、粗い時間枝をトレーニング可能な視点で導入する。
モデルは革新的なアテンションメカニズムを使用して、アクティビティ認識のための高レベルなアクション固有のコンテキスト情報を生成する。
論文 参考訳(メタデータ) (2021-01-17T10:15:37Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。