論文の概要: Distillation of Human-Object Interaction Contexts for Action Recognition
- arxiv url: http://arxiv.org/abs/2112.09448v1
- Date: Fri, 17 Dec 2021 11:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 16:02:21.176614
- Title: Distillation of Human-Object Interaction Contexts for Action Recognition
- Title(参考訳): 行動認識のためのヒューマン・オブジェクト相互作用コンテキストの蒸留
- Authors: Muna Almushyti and Frederick W. Li
- Abstract要約: 局所的・グローバル的文脈の相互作用を利用して人間とオブジェクトの関係を学習する。
空間と時間を通して人間と物体の相互作用を学習するGLIDN(Global-Local Interaction Distillation Network)を提案する。
GLIDNは人やオブジェクトをグラフノードにエンコードし、グラフアテンションネットワークを介して局所的およびグローバルな関係を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling spatial-temporal relations is imperative for recognizing human
actions, especially when a human is interacting with objects, while multiple
objects appear around the human differently over time. Most existing action
recognition models focus on learning overall visual cues of a scene but
disregard informative fine-grained features, which can be captured by learning
human-object relationships and interactions. In this paper, we learn
human-object relationships by exploiting the interaction of their local and
global contexts. We hence propose the Global-Local Interaction Distillation
Network (GLIDN), learning human and object interactions through space and time
via knowledge distillation for fine-grained scene understanding. GLIDN encodes
humans and objects into graph nodes and learns local and global relations via
graph attention network. The local context graphs learn the relation between
humans and objects at a frame level by capturing their co-occurrence at a
specific time step. The global relation graph is constructed based on the
video-level of human and object interactions, identifying their long-term
relations throughout a video sequence. More importantly, we investigate how
knowledge from these graphs can be distilled to their counterparts for
improving human-object interaction (HOI) recognition. We evaluate our model by
conducting comprehensive experiments on two datasets including Charades and
CAD-120 datasets. We have achieved better results than the baselines and
counterpart approaches.
- Abstract(参考訳): 空間的時間的関係のモデル化は、特に人間が物体と相互作用している場合において、人間の行動を認識するために不可欠である。
既存のアクション認識モデルはシーンの視覚的な手がかりを学習することに集中しているが、人間とオブジェクトの関係やインタラクションを学習することで得られる、情報的な細かな特徴を無視している。
本稿では,局所的およびグローバル的文脈の相互作用を利用して,人間と対象の関係を学習する。
そこで我々はGlobal-Local Interaction Distillation Network (GLIDN)を提案する。
glidnは人間とオブジェクトをグラフノードにエンコードし、グラフアテンションネットワークを介してローカルとグローバルの関係を学ぶ。
局所コンテキストグラフは、特定の時間ステップで共起を捉えて、フレームレベルで人間とオブジェクトの関係を学習する。
大域関係グラフは、人間と物体の相互作用の映像レベルに基づいて構築され、それらの長期関係をビデオシーケンスを通して識別する。
さらに重要なことは、これらのグラフからの知識を、人間と物体の相互作用(HOI)認識を改善するために、どのように蒸留するかを検討することである。
シャーレードとcad-120データセットを含む2つのデータセットについて包括的実験を行い,本モデルの評価を行った。
私たちはベースラインや他のアプローチよりも優れた結果を得ました。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - Full-Body Articulated Human-Object Interaction [61.01135739641217]
CHAIRSは16.2時間の多目的相互作用からなる大規模な動きキャプチャーされたf-AHOIデータセットである。
CHAIRSは、対話的なプロセス全体を通して、人間と明瞭なオブジェクトの両方の3Dメッシュを提供する。
HOIにおける幾何学的関係を学習することにより,人間のポーズ推定を利用した最初のモデルが考案された。
論文 参考訳(メタデータ) (2022-12-20T19:50:54Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。