論文の概要: Classifying All Interacting Pairs in a Single Shot
- arxiv url: http://arxiv.org/abs/2001.04360v1
- Date: Mon, 13 Jan 2020 15:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:24:25.057490
- Title: Classifying All Interacting Pairs in a Single Shot
- Title(参考訳): 単一ショットにおける相互作用するすべてのペアの分類
- Authors: Sanaa Chafik and Astrid Orcesi and Romaric Audigier and Bertrand
Luvison
- Abstract要約: 我々は,人間と物体の相互作用を分類するCALIPSOに基づく,新しいヒューマンインタラクション検出手法を提案する。
それは、その数とクラスに関係なく、すべての人間とオブジェクトのペアの相互作用を同時に推定する。
これは、画像内の被写体、オブジェクト、相互作用の数によらず、一定の複雑さと計算時間をもたらす。
- 参考スコア(独自算出の注目度): 29.0200561485714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a novel human interaction detection approach,
based on CALIPSO (Classifying ALl Interacting Pairs in a Single shOt), a
classifier of human-object interactions. This new single-shot interaction
classifier estimates interactions simultaneously for all human-object pairs,
regardless of their number and class. State-of-the-art approaches adopt a
multi-shot strategy based on a pairwise estimate of interactions for a set of
human-object candidate pairs, which leads to a complexity depending, at least,
on the number of interactions or, at most, on the number of candidate pairs. In
contrast, the proposed method estimates the interactions on the whole image.
Indeed, it simultaneously estimates all interactions between all human subjects
and object targets by performing a single forward pass throughout the image.
Consequently, it leads to a constant complexity and computation time
independent of the number of subjects, objects or interactions in the image. In
detail, interaction classification is achieved on a dense grid of anchors
thanks to a joint multi-task network that learns three complementary tasks
simultaneously: (i) prediction of the types of interaction, (ii) estimation of
the presence of a target and (iii) learning of an embedding which maps
interacting subject and target to a same representation, by using a metric
learning strategy. In addition, we introduce an object-centric passive-voice
verb estimation which significantly improves results. Evaluations on the two
well-known Human-Object Interaction image datasets, V-COCO and HICO-DET,
demonstrate the competitiveness of the proposed method (2nd place) compared to
the state-of-the-art while having constant computation time regardless of the
number of objects and interactions in the image.
- Abstract(参考訳): 本稿では,人間と物体の相互作用を分類する CALIPSO (Classifying ALl Interacting Pairs in a Single shOt) に基づく,新しいヒューマンインタラクション検出手法を提案する。
この新しいシングルショットインタラクション分類器は、その数とクラスに関係なく、すべてのオブジェクト対のインタラクションを同時に見積もる。
最先端のアプローチでは、人間と対象の候補ペアのペアの相互作用のペアワイズ推定に基づくマルチショット戦略を採用しており、少なくとも相互作用の数や、少なくとも候補ペアの数によっては複雑さが生じる。
対照的に,提案手法では画像全体の相互作用を推定する。
実際、画像全体を通して単一のフォワードパスを実行することで、すべての被写体と対象物の相互作用を同時に推定する。
その結果、画像内の被写体、オブジェクト、相互作用の数によらず、一定の複雑さと計算時間が生じる。
詳細は、3つの相補的なタスクを同時に学習する連立マルチタスクネットワークにより、アンカーの格子上での相互作用分類が達成される。
(i)相互作用の種類を予測すること。
(ii)対象物の有無の推定と
(iii)計量学習戦略を用いて、相互作用対象を同一表現にマッピングした埋め込みの学習。
さらに,オブジェクト中心の受動音声の動詞推定を導入し,結果を大幅に改善する。
V-COCOとHICO-DETの2つのよく知られたヒューマン・オブジェクト・インタラクション・イメージ・データセットの評価は、画像内のオブジェクトの数や相互作用によらず一定の計算時間を持ちながら、提案手法(第2位)の競争力を示す。
関連論文リスト
- Visual-Geometric Collaborative Guidance for Affordance Learning [63.038406948791454]
本稿では,視覚的・幾何学的手がかりを取り入れた視覚・幾何学的協調学習ネットワークを提案する。
本手法は,客観的指標と視覚的品質の代表的なモデルより優れている。
論文 参考訳(メタデータ) (2024-10-15T07:35:51Z) - LEMON: Learning 3D Human-Object Interaction Relation from 2D Images [56.6123961391372]
人間の物体と物体の相互作用関係の学習は、AIと相互作用モデリングの具体化に不可欠である。
既存のほとんどの手法は、孤立した相互作用要素を予測することを学ぶことで目標に近づいている。
本稿では,相互の相互作用意図をマイニングし,幾何相関の抽出を導出するための曲率を用いた統一モデルLEMONを提案する。
論文 参考訳(メタデータ) (2023-12-14T14:10:57Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO [29.0200561485714]
我々は,Human-to-Human-or-Object(H2O)という2種類のインタラクションを扱う新しいインタラクションデータセットを提案する。
さらに, 人間の身体的態度の記述に近づき, 周囲の相互作用の標的について記述することを目的とした, 動詞の新たな分類法を導入する。
提案手法は,1回のフォワードパスにおける全てのインタラクションを検出するための,効率的な主観中心単発撮影法であるDIABOLOを提案する。
論文 参考訳(メタデータ) (2022-01-07T11:00:11Z) - HOTR: End-to-End Human-Object Interaction Detection with Transformers [26.664864824357164]
そこで本研究では, HOTRが提唱する, 画像からヒト, オブジェクト, 相互作用> トリプレットの集合を直接予測する新しいフレームワークを提案する。
提案アルゴリズムは,2つのHOI検出ベンチマークにおいて,オブジェクト検出後1ms以下の推論時間で最新の性能を実現する。
論文 参考訳(メタデータ) (2021-04-28T10:10:29Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。