論文の概要: Discovering a Variety of Objects in Spatio-Temporal Human-Object
Interactions
- arxiv url: http://arxiv.org/abs/2211.07501v1
- Date: Mon, 14 Nov 2022 16:33:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 15:52:25.659261
- Title: Discovering a Variety of Objects in Spatio-Temporal Human-Object
Interactions
- Title(参考訳): 時空間相互作用における物体の多様性の発見
- Authors: Yong-Lu Li, Hongwei Fan, Zuoyu Qiu, Yiming Dou, Liang Xu, Hao-Shu
Fang, Peiyang Guo, Haisheng Su, Dongliang Wang, Wei Wu, Cewu Lu
- Abstract要約: 毎日のHOIでは、人間が掃除中に何十もの家庭用品を持って触れるなど、さまざまな物と対話することが多い。
51のインタラクションと1000以上のオブジェクトを含むDIO(Discoveringed Objects)。
ST-HOI学習タスクは、視覚システムが人間のアクターを追跡し、相互作用を検出し、同時に物体を発見することを期待するものである。
- 参考スコア(独自算出の注目度): 45.92485321148352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatio-temporal Human-Object Interaction (ST-HOI) detection aims at detecting
HOIs from videos, which is crucial for activity understanding. In daily HOIs,
humans often interact with a variety of objects, e.g., holding and touching
dozens of household items in cleaning. However, existing whole body-object
interaction video benchmarks usually provide limited object classes. Here, we
introduce a new benchmark based on AVA: Discovering Interacted Objects (DIO)
including 51 interactions and 1,000+ objects. Accordingly, an ST-HOI learning
task is proposed expecting vision systems to track human actors, detect
interactions and simultaneously discover interacted objects. Even though
today's detectors/trackers excel in object detection/tracking tasks, they
perform unsatisfied to localize diverse/unseen objects in DIO. This profoundly
reveals the limitation of current vision systems and poses a great challenge.
Thus, how to leverage spatio-temporal cues to address object discovery is
explored, and a Hierarchical Probe Network (HPN) is devised to discover
interacted objects utilizing hierarchical spatio-temporal human/context cues.
In extensive experiments, HPN demonstrates impressive performance. Data and
code are available at https://github.com/DirtyHarryLYL/HAKE-AVA.
- Abstract(参考訳): 時空間ヒューマンオブジェクトインタラクション(ST-HOI)検出は,ビデオからHOIを検出することを目的としている。
毎日のHOIでは、人間が掃除中に何十もの家庭用品を持って触れるなど、さまざまな物と対話することが多い。
しかしながら、既存のボディオブジェクト間のインタラクションビデオベンチマークは通常、限られたオブジェクトクラスを提供する。
ここでは、AVAに基づく新しいベンチマークを紹介する。 51のインタラクションと1000以上のオブジェクトを含む、DIO(Interacted Objects)の発見。
そこで,ST-HOI学習タスクでは,視覚システムが人間のアクターを追跡し,対話を検出し,対話対象を同時に発見することを期待している。
今日の検出器/トラッカーは、オブジェクトの検出/追跡タスクに優れていますが、dioにおける多様で未知のオブジェクトをローカライズするには不十分です。
これは現在のビジョンシステムの限界を深く明らかにし、大きな課題となる。
そこで,物体発見への時空間的手がかりの活用法を探求し,階層的時空間的人間/文脈的手がかりを利用した対話的物体発見のための階層的プローブネットワーク (hpn) を考案した。
大規模な実験では、HPNは素晴らしい性能を示している。
データとコードはhttps://github.com/DirtyHarryLYL/HAKE-AVA.comで入手できる。
関連論文リスト
- AffordanceLLM: Grounding Affordance from Vision Language Models [36.97072698640563]
Affordance groundingは、対話可能なオブジェクトの領域を見つけるタスクを指す。
知識の多くは隠蔽され、限られたトレーニングセットから教師付きラベルで画像の内容を超えています。
我々は、豊かな世界、抽象的、人間-対象-相互作用の知識を生かして、現在の空き地における一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-01-12T03:21:02Z) - InterTracker: Discovering and Tracking General Objects Interacting with
Hands in the Wild [40.489171608114574]
既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。
本稿では,対話オブジェクトの追跡に手動オブジェクトのインタラクションを活用することを提案する。
提案手法は最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-06T09:09:17Z) - Object-agnostic Affordance Categorization via Unsupervised Learning of
Graph Embeddings [6.371828910727037]
オブジェクトのインタラクションやアベイランスに関する知識を取得することで、シーン理解や人間とロボットのコラボレーション作業が容易になる。
オープンな相互作用の集合を持つクラス非依存オブジェクトに対する割当分類の問題に対処する。
アクティビティグラフの構築のために,新しい深度情報を用いた定性的空間表現を提案する。
論文 参考訳(メタデータ) (2023-03-30T15:04:04Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - Human-Object Interaction Detection:A Quick Survey and Examination of
Methods [17.8805983491991]
これは、この分野における最先端およびマイルストーンの研究に関する最初の一般的な調査である。
本稿では,人間と物体の相互作用検出の分野での展開に関する基礎的な調査を行う。
本稿では,HORCNNアーキテクチャを基礎研究として検討する。
論文 参考訳(メタデータ) (2020-09-27T20:58:39Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。