論文の概要: Compositional Learning in Transformer-Based Human-Object Interaction
Detection
- arxiv url: http://arxiv.org/abs/2308.05961v1
- Date: Fri, 11 Aug 2023 06:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 14:53:52.199294
- Title: Compositional Learning in Transformer-Based Human-Object Interaction
Detection
- Title(参考訳): トランスフォーマーを用いたヒューマンオブジェクトインタラクション検出における構成学習
- Authors: Zikun Zhuang, Ruihao Qian, Chi Xie, Shuang Liang
- Abstract要約: ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
- 参考スコア(独自算出の注目度): 6.630793383852106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object interaction (HOI) detection is an important part of
understanding human activities and visual scenes. The long-tailed distribution
of labeled instances is a primary challenge in HOI detection, promoting
research in few-shot and zero-shot learning. Inspired by the combinatorial
nature of HOI triplets, some existing approaches adopt the idea of
compositional learning, in which object and action features are learned
individually and re-composed as new training samples. However, these methods
follow the CNN-based two-stage paradigm with limited feature extraction
ability, and often rely on auxiliary information for better performance.
Without introducing any additional information, we creatively propose a
transformer-based framework for compositional HOI learning. Human-object pair
representations and interaction representations are re-composed across
different HOI instances, which involves richer contextual information and
promotes the generalization of knowledge. Experiments show our simple but
effective method achieves state-of-the-art performance, especially on rare HOI
classes.
- Abstract(参考訳): 人間と物体の相互作用(HOI)の検出は、人間の活動や視覚シーンを理解する上で重要な部分である。
ラベル付きインスタンスのロングテール分布はhoi検出の主要な課題であり、少数およびゼロショット学習の研究を促進する。
HOI三重奏の組合せ性に着想を得た既存手法では、対象と行動の特徴を個別に学習し、新たなトレーニングサンプルとして再構成する構成学習の考え方を採用している。
しかし,これらの手法は特徴抽出能力に制限があるCNNベースの2段階パラダイムに従っており,性能向上のために補助情報に依存することが多い。
追加情報を導入することなく,合成hoi学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
ヒトと対象のペア表現と相互作用表現は、よりリッチな文脈情報を含むHOIインスタンス間で再構成され、知識の一般化を促進する。
実験により, 単純だが有効な手法は, 特に稀なHOIクラスにおいて, 最先端のパフォーマンスを達成することを示す。
関連論文リスト
- The impact of Compositionality in Zero-shot Multi-label action recognition for Object-based tasks [4.971065912401385]
ゼロショットマルチラベル動作認識のための統一的なアプローチであるDual-VCLIPを提案する。
Dual-VCLIPは、マルチラベル画像分類のためのDualCoOp法を用いて、ゼロショット動作認識法であるVCLIPを強化する。
オブジェクトベースのアクションの大部分を含むCharadesデータセット上で,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-05-14T15:28:48Z) - Towards Zero-shot Human-Object Interaction Detection via Vision-Language
Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。
より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。
我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文 参考訳(メタデータ) (2024-03-12T02:07:23Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Generating Human-Centric Visual Cues for Human-Object Interaction
Detection via Large Vision-Language Models [59.611697856666304]
人-物対検出(Human-object Interaction:HOI)は、人-物対を検出し、その相互作用を予測することを目的とする。
我々はVLMを用いた3つのプロンプトを提案し、人間の複数の視点から画像内で人間中心の視覚的手がかりを生成する。
我々は,マルチトワーアーキテクチャを用いたトランスフォーマーベースのマルチモーダル融合モジュールを開発し,視覚的キュー機能をインスタンスと対話デコーダに統合する。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Detecting Any Human-Object Interaction Relationship: Universal HOI
Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。
我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。
オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文 参考訳(メタデータ) (2023-11-07T08:27:32Z) - Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection [57.13665112065285]
ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:52Z) - Skeleton-Based Mutually Assisted Interacted Object Localization and
Human Action Recognition [111.87412719773889]
本研究では,骨格データに基づく「相互作用対象の局所化」と「人間の行動認識」のための共同学習フレームワークを提案する。
本手法は,人間の行動認識のための最先端の手法を用いて,最高の,あるいは競争的な性能を実現する。
論文 参考訳(メタデータ) (2021-10-28T10:09:34Z) - Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。
人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。
オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文 参考訳(メタデータ) (2021-03-15T08:52:56Z) - Transferable Interactiveness Knowledge for Human-Object Interaction
Detection [46.89715038756862]
我々は,人間と物体が相互に相互作用するか否かを示す対話性知識を探索する。
対話性に関する知識は、HOIデータセット全体で学習でき、多様なHOIカテゴリ設定のギャップを埋めることができる。
私たちのコアアイデアは、対話性ネットワークを利用して、複数のHOIデータセットから一般的な対話性知識を学ぶことです。
論文 参考訳(メタデータ) (2021-01-25T18:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。