論文の概要: Neural-Logic Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2311.09817v1
- Date: Thu, 16 Nov 2023 11:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 14:29:50.198114
- Title: Neural-Logic Human-Object Interaction Detection
- Title(参考訳): 神経・生理的ヒューマン・オブジェクトインタラクション検出
- Authors: Liulei Li, Jianan Wei, Wenguan Wang, Yi Yang
- Abstract要約: 本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラトランスフォーマーの自己保持機構を改変し,人間,行動,対象>三重項を推論し,新たな相互作用を構成する。
我々はこれらの2つの特性を一階述語論理で定式化し、それらを連続空間に基底にして、我々のアプローチの学習過程を制約し、性能とゼロショットの一般化能力を向上させる。
- 参考スコア(独自算出の注目度): 67.4993347702353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The interaction decoder utilized in prevalent Transformer-based HOI detectors
typically accepts pre-composed human-object pairs as inputs. Though achieving
remarkable performance, such paradigm lacks feasibility and cannot explore
novel combinations over entities during decoding. We present L OGIC HOI, a new
HOI detector that leverages neural-logic reasoning and Transformer to infer
feasible interactions between entities. Specifically, we modify the
self-attention mechanism in vanilla Transformer, enabling it to reason over the
<human, action, object> triplet and constitute novel interactions. Meanwhile,
such reasoning process is guided by two crucial properties for understanding
HOI: affordances (the potential actions an object can facilitate) and proxemics
(the spatial relations between humans and objects). We formulate these two
properties in first-order logic and ground them into continuous space to
constrain the learning process of our approach, leading to improved performance
and zero-shot generalization capabilities. We evaluate L OGIC HOI on V-COCO and
HICO-DET under both normal and zero-shot setups, achieving significant
improvements over existing methods.
- Abstract(参考訳): 一般的なトランスフォーマーベースのHOI検出器で使用される相互作用デコーダは、通常、プリコンプットされた人間と物体のペアを入力として受け入れる。
優れた性能を達成する一方で、そのようなパラダイムは実現不可能であり、デコード中にエンティティよりも新しい組み合わせを探索することができない。
本稿では,ニューラルロジック推論を利用した新しいHOI検出器であるL OGIC HOIと,実体間の相互作用を推測するTransformerを提案する。
具体的には,バニラ変圧器の自己保持機構を改変し,<人,行動,対象>三重項を推論し,新たな相互作用を構成する。
一方、そのような推論過程はHOIを理解するための2つの重要な性質によって導かれる: 余裕(物体が促進する潜在的な行動)とプロキシ(人間と物体の間の空間的関係)である。
この2つの特性を一階述語論理で定式化し,それらを連続空間に固定することで,学習過程を制約し,性能向上とゼロショット一般化を実現する。
我々は,V-COCOとHICO-DETのL OGIC HOIを,通常の設定とゼロショット設定の両方で評価し,既存の手法よりも大幅に改善した。
関連論文リスト
- Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - HODN: Disentangling Human-Object Feature for HOI Detection [51.48164941412871]
本稿では,Human and Object Disentangling Network (HODN) を提案し,Human-Object Interaction (HOI) の関係を明示的にモデル化する。
インタラクションに人間的特徴がより寄与していることを考慮し,インタラクションデコーダが人間中心の領域に焦点を当てていることを確認するためのヒューマンガイドリンク手法を提案する。
提案手法は,V-COCOとHICO-Det Linkingデータセットの競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-20T04:12:50Z) - ViPLO: Vision Transformer based Pose-Conditioned Self-Loop Graph for
Human-Object Interaction Detection [20.983998911754792]
2段階のHuman-Object Interaction (HOI)検出器は1段階法よりも性能が低い。
これらの問題を解決するために視覚変換器を用いたPose-Conditioned Self-Loop Graph (ViPLO)を提案する。
ViPLOは2つの公開ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-04-17T09:44:54Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Human-Object Interaction Detection via Disentangled Transformer [63.46358684341105]
本稿では,2つのサブタスクの学習を容易にするために,エンコーダとデコーダの両方をアンタングル化するDisentangled Transformerを提案する。
提案手法は,2つの公開HOIベンチマークにおいて,従来よりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2022-04-20T08:15:04Z) - RR-Net: Injecting Interactive Semantics in Human-Object Interaction
Detection [40.65483058890176]
最新のエンドツーエンドHOI検出器は関係推論に欠けており、予測のためにHOI固有の対話的セマンティクスを学習できない。
まず、インタラクション推論のための新しい構造とパラメータ共有パターンをもたらす、プログレッシブな関係認識フレームを提案する。
上記のモジュールに基づいて、Relation Reasoning Network (abbr) というエンドツーエンドのトレーニング可能なフレームワークを構築します。
RR-Net)
論文 参考訳(メタデータ) (2021-04-30T14:03:10Z) - Learning Human-Object Interaction Detection using Interaction Points [140.0200950601552]
本研究では,人間と物体の相互作用を直接検出する新しい完全畳み込み手法を提案する。
我々のネットワークは相互作用点を予測し、その相互作用を直接ローカライズし、分類する。
V-COCOとHICO-DETの2つの人気のあるベンチマークで実験が行われる。
論文 参考訳(メタデータ) (2020-03-31T08:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。