論文の概要: LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos
- arxiv url: http://arxiv.org/abs/2012.09402v1
- Date: Thu, 17 Dec 2020 05:44:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 07:27:04.629476
- Title: LIGHTEN: Learning Interactions with Graph and Hierarchical TEmporal
Networks for HOI in videos
- Title(参考訳): LIGHTEN:ビデオにおけるHOIのためのグラフと階層的テンポラルネットワークとのインタラクションの学習
- Authors: Sai Praneeth Reddy Sunkesula, Rishabh Dabral, Ganesh Ramakrishnan
- Abstract要約: ビデオから人間と物体の相互作用を分析すると、人間とビデオに存在する物体の関係が特定される。
映像中の複数の粒度の真理を効果的に捉え,視覚的特徴を学習するための階層的アプローチ LIGHTEN を提案する。
V-COCOにおける人間と物体の相互作用検出(88.9%と92.6%)とCAD-120の予測タスクおよび画像ベースHOI検出の競争結果の最先端化を実現した。
- 参考スコア(独自算出の注目度): 13.25502885135043
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Analyzing the interactions between humans and objects from a video includes
identification of the relationships between humans and the objects present in
the video. It can be thought of as a specialized version of Visual Relationship
Detection, wherein one of the objects must be a human. While traditional
methods formulate the problem as inference on a sequence of video segments, we
present a hierarchical approach, LIGHTEN, to learn visual features to
effectively capture spatio-temporal cues at multiple granularities in a video.
Unlike current approaches, LIGHTEN avoids using ground truth data like depth
maps or 3D human pose, thus increasing generalization across non-RGBD datasets
as well. Furthermore, we achieve the same using only the visual features,
instead of the commonly used hand-crafted spatial features. We achieve
state-of-the-art results in human-object interaction detection (88.9% and
92.6%) and anticipation tasks of CAD-120 and competitive results on image based
HOI detection in V-COCO dataset, setting a new benchmark for visual features
based approaches. Code for LIGHTEN is available at
https://github.com/praneeth11009/LIGHTEN-Learning-Interactions-with-Graphs-and-Hierarchical-TEmporal -Networks-for-HOI
- Abstract(参考訳): ビデオから人間とオブジェクト間の相互作用を分析することで、人間とビデオに存在するオブジェクトの関係を識別する。
これは、物体の1つが人間でなければならない視覚関係検出の特殊なバージョンと考えることができる。
従来の手法では,ビデオセグメントのシーケンスの推論として問題を定式化するが,階層的なアプローチであるLIGHTENを用いて視覚的特徴を学習し,ビデオ内の複数の粒度の時空間的手がかりを効果的に捉える。
現在のアプローチとは異なり、LIGHTENは深度マップや3D人間のポーズのような地上の真実データの使用を避けるため、RGBD以外のデータセットも一般化される。
さらに,手作りの空間的特徴ではなく,視覚的特徴のみを用いて同じことを実現する。
本研究では,v-cocoデータセットにおける画像に基づくhoi検出に基づくcad-120のヒューマン・オブジェクト間インタラクション検出(88.9%,92.6%)と期待タスク,および競合結果を用いて,視覚特徴ベースアプローチの新しいベンチマークを設定する。
LIGHTENのコードはhttps://github.com/praneeth11009/LIGHTEN-Learning-Interactions-with-Graphs-and-Hierarchical-Temporal -Networks-for-HOIで公開されている。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Spatial Parsing and Dynamic Temporal Pooling networks for Human-Object
Interaction detection [30.896749712316222]
本稿では,空間的パーシングと動的テンポリング(SPDTP)ネットワークについて紹介する。
我々はCAD-120およびSome-Elseデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-07T07:26:06Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。