論文の概要: Visual Compositional Learning for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2007.12407v2
- Date: Sun, 4 Oct 2020 12:47:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 06:48:30.305006
- Title: Visual Compositional Learning for Human-Object Interaction Detection
- Title(参考訳): 物体間インタラクション検出のための視覚合成学習
- Authors: Zhi Hou, Xiaojiang Peng, Yu Qiao, Dacheng Tao
- Abstract要約: 人間-物体相互作用(Human-Object Interaction,HOI)は、画像中の人間と物体の関係を局所化し、推測することを目的としている。
オブジェクトと動詞の型の組み合わせの膨大な数が、長い尾の分布を形成するため、これは難しい。
私たちは、この問題に効果的に対処するための、シンプルで効率的なフレームワークである、深いビジュアルコンポジション学習フレームワークを考案しました。
- 参考スコア(独自算出の注目度): 111.05263071111807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object interaction (HOI) detection aims to localize and infer
relationships between human and objects in an image. It is challenging because
an enormous number of possible combinations of objects and verbs types forms a
long-tail distribution. We devise a deep Visual Compositional Learning (VCL)
framework, which is a simple yet efficient framework to effectively address
this problem. VCL first decomposes an HOI representation into object and verb
specific features, and then composes new interaction samples in the feature
space via stitching the decomposed features. The integration of decomposition
and composition enables VCL to share object and verb features among different
HOI samples and images, and to generate new interaction samples and new types
of HOI, and thus largely alleviates the long-tail distribution problem and
benefits low-shot or zero-shot HOI detection. Extensive experiments demonstrate
that the proposed VCL can effectively improve the generalization of HOI
detection on HICO-DET and V-COCO and outperforms the recent state-of-the-art
methods on HICO-DET. Code is available at https://github.com/zhihou7/VCL.
- Abstract(参考訳): human-object interaction(hoi)検出は、画像内の人間とオブジェクトの関係を局所化し、推論することを目的としている。
オブジェクトと動詞型の膨大な組み合わせがロングテール分布を形成するため、これは困難である。
我々は,この問題を効果的に解決するための単純かつ効率的なフレームワークである深部視覚合成学習(vcl)フレームワークを考案する。
VCLはまず、HOI表現をオブジェクトと動詞特有の特徴に分解し、次に分解された特徴を縫い合わせることで特徴空間に新しい相互作用サンプルを構成する。
分解と合成の統合により、VCLは、異なるHOIサンプルと画像間でオブジェクトと動詞の特徴を共有でき、新しい相互作用サンプルと新しいタイプのHOIを生成することができる。
広汎な実験により,提案したVCLはHICO-DETおよびV-COCOにおけるHOI検出の一般化を効果的に向上し,最近のHICO-DETにおける最先端手法よりも優れていることが示された。
コードはhttps://github.com/zhihou7/vclで入手できる。
関連論文リスト
- Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Affordance Transfer Learning for Human-Object Interaction Detection [106.37536031160282]
新規なオブジェクトとHOIを共同検出し、アワアンスを認識するアワアンス転送学習手法を紹介します。
具体的には、HOI表現はアペアランスとオブジェクト表現の組み合わせに分離することができる。
提案された代価移動学習により、モデルは既知の代価表現から新規な対象の代価を推測することができる。
論文 参考訳(メタデータ) (2021-04-07T02:37:04Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。