論文の概要: Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO
- arxiv url: http://arxiv.org/abs/2201.02396v1
- Date: Fri, 7 Jan 2022 11:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-10 14:47:40.660173
- Title: Detecting Human-to-Human-or-Object (H2O) Interactions with DIABOLO
- Title(参考訳): DIABOLOによるH2O(Human-to-Human-or-Object)相互作用の検出
- Authors: Astrid Orcesi, Romaric Audigier, Fritz Poka Toukam and Bertrand
Luvison
- Abstract要約: 我々は,Human-to-Human-or-Object(H2O)という2種類のインタラクションを扱う新しいインタラクションデータセットを提案する。
さらに, 人間の身体的態度の記述に近づき, 周囲の相互作用の標的について記述することを目的とした, 動詞の新たな分類法を導入する。
提案手法は,1回のフォワードパスにおける全てのインタラクションを検出するための,効率的な主観中心単発撮影法であるDIABOLOを提案する。
- 参考スコア(独自算出の注目度): 29.0200561485714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting human interactions is crucial for human behavior analysis. Many
methods have been proposed to deal with Human-to-Object Interaction (HOI)
detection, i.e., detecting in an image which person and object interact
together and classifying the type of interaction. However, Human-to-Human
Interactions, such as social and violent interactions, are generally not
considered in available HOI training datasets. As we think these types of
interactions cannot be ignored and decorrelated from HOI when analyzing human
behavior, we propose a new interaction dataset to deal with both types of human
interactions: Human-to-Human-or-Object (H2O). In addition, we introduce a novel
taxonomy of verbs, intended to be closer to a description of human body
attitude in relation to the surrounding targets of interaction, and more
independent of the environment. Unlike some existing datasets, we strive to
avoid defining synonymous verbs when their use highly depends on the target
type or requires a high level of semantic interpretation. As H2O dataset
includes V-COCO images annotated with this new taxonomy, images obviously
contain more interactions. This can be an issue for HOI detection methods whose
complexity depends on the number of people, targets or interactions. Thus, we
propose DIABOLO (Detecting InterActions By Only Looking Once), an efficient
subject-centric single-shot method to detect all interactions in one forward
pass, with constant inference time independent of image content. In addition,
this multi-task network simultaneously detects all people and objects. We show
how sharing a network for these tasks does not only save computation resource
but also improves performance collaboratively. Finally, DIABOLO is a strong
baseline for the new proposed challenge of H2O Interaction detection, as it
outperforms all state-of-the-art methods when trained and evaluated on HOI
dataset V-COCO.
- Abstract(参考訳): ヒューマンインタラクションの検出は、人間の行動分析に不可欠である。
ヒューマン・ツー・オブジェクト・インタラクション(HOI: Human-to-Object Interaction)の検出、すなわち、人とオブジェクトが相互作用する画像を検知し、インタラクションのタイプを分類する多くの方法が提案されている。
しかしながら、社会と暴力の相互作用のような人間と人間の相互作用は、一般にHOIトレーニングデータセットでは考慮されていない。
我々は、人間の行動を分析する際に、これらの相互作用はHOIとは無視できないと考えており、Human-to-Human-or-Object(H2O)という2種類の相互作用を扱うための新しい相互作用データセットを提案する。
さらに, 動詞の新たな分類法を導入し, 人間の身体の態度を, 周囲の相互作用の標的に近づき, 環境から独立することを目的としている。
既存のデータセットと異なり、それらの使用がターゲットタイプに依存する場合や、高いレベルの意味的解釈を必要とする場合、同義語動詞の定義を避けることに努める。
H2Oデータセットには、この新しい分類に注釈付けされたV-COCOイメージが含まれているため、画像には明らかにより多くの相互作用が含まれている。
これは、人、ターゲット、あるいはインタラクションの数に依存する複雑さを持つhoi検出方法の問題だ。
そこで本研究では,画像コンテンツに依存しない推定時間を一定に保ちながら,全インタラクションを1回のフォワードパスで検出する効率的な主観中心シングルショット法であるdiaboloを提案する。
さらに、このマルチタスクネットワークは、すべての人とオブジェクトを同時に検出する。
これらのタスクのネットワーク共有は,計算資源の節約だけでなく,協調的な性能向上にも寄与することを示す。
最後に、DIABOLOは、HOIデータセットV-COCOのトレーニングおよび評価において、すべての最先端メソッドよりも優れているため、新しいH2Oインタラクション検出の課題の強力なベースラインである。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - Transferable Interactiveness Knowledge for Human-Object Interaction
Detection [46.89715038756862]
我々は,人間と物体が相互に相互作用するか否かを示す対話性知識を探索する。
対話性に関する知識は、HOIデータセット全体で学習でき、多様なHOIカテゴリ設定のギャップを埋めることができる。
私たちのコアアイデアは、対話性ネットワークを利用して、複数のHOIデータセットから一般的な対話性知識を学ぶことです。
論文 参考訳(メタデータ) (2021-01-25T18:21:07Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z) - Classifying All Interacting Pairs in a Single Shot [29.0200561485714]
我々は,人間と物体の相互作用を分類するCALIPSOに基づく,新しいヒューマンインタラクション検出手法を提案する。
それは、その数とクラスに関係なく、すべての人間とオブジェクトのペアの相互作用を同時に推定する。
これは、画像内の被写体、オブジェクト、相互作用の数によらず、一定の複雑さと計算時間をもたらす。
論文 参考訳(メタデータ) (2020-01-13T15:51:45Z) - Visual-Semantic Graph Attention Networks for Human-Object Interaction
Detection [6.161066669674775]
Human-Object Interaction (HOI) Detections infers the action predicate on a human, predicate, object> triplet。
本稿では,グラフネットワークを通じて得られる補助関係の曖昧な貢献について検討する。
本研究では,視覚的,空間的,意味的な情報を効果的に集約するデュアルグラフアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-01-07T22:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。