論文の概要: Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2412.08506v1
- Date: Wed, 11 Dec 2024 16:18:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:10.904911
- Title: Orchestrating the Symphony of Prompt Distribution Learning for Human-Object Interaction Detection
- Title(参考訳): 人-物間相互作用検出のためのプロンプト分布学習の交響曲の編成
- Authors: Mingda Jia, Liming Zhao, Ge Li, Yun Zheng,
- Abstract要約: 一般的なクエリ・トランスフォーマーアーキテクチャを用いたHuman-object Interaction (HOI)検出器は有望な性能を実現している。
インタラクション・プロンプト・ディストリビュート・ラーニング(InterProDa)のアプローチを紹介する。
提案手法は,ほとんどの変圧器を用いたHOI検出器に組み込むことができ,性能を著しく向上させることができる。
- 参考スコア(独自算出の注目度): 24.381821663963898
- License:
- Abstract: Human-object interaction (HOI) detectors with popular query-transformer architecture have achieved promising performance. However, accurately identifying uncommon visual patterns and distinguishing between ambiguous HOIs continue to be difficult for them. We observe that these difficulties may arise from the limited capacity of traditional detector queries in representing diverse intra-category patterns and inter-category dependencies. To address this, we introduce the Interaction Prompt Distribution Learning (InterProDa) approach. InterProDa learns multiple sets of soft prompts and estimates category distributions from various prompts. It then incorporates HOI queries with category distributions, making them capable of representing near-infinite intra-category dynamics and universal cross-category relationships. Our InterProDa detector demonstrates competitive performance on HICO-DET and vcoco benchmarks. Additionally, our method can be integrated into most transformer-based HOI detectors, significantly enhancing their performance with minimal additional parameters.
- Abstract(参考訳): 一般的なクエリ・トランスフォーマーアーキテクチャを用いたHuman-object Interaction (HOI)検出器は有望な性能を実現している。
しかし、不規則な視覚パターンを正確に識別し、曖昧なHOIを区別することは依然として困難である。
これらの困難は、様々なカテゴリ内パターンとカテゴリ間依存関係を表す従来の検出クエリの容量が限られていることから生じる可能性がある。
これを解決するために、InterProDa(Interaction Prompt Distribution Learning)アプローチを導入する。
InterProDaは複数のソフトプロンプトを学習し、様々なプロンプトからカテゴリ分布を推定する。
その後、HOIクエリをカテゴリ分布に組み込んで、ほぼ無限のカテゴリ内ダイナミクスと普遍的なカテゴリ間関係を表現することができる。
我々のInterProDa検出器はHICO-DETおよびvcocoベンチマーク上での競合性能を示す。
さらに,本手法をほとんどの変圧器を用いたHOI検出器に統合し,最小限の追加パラメータで性能を著しく向上させることができる。
関連論文リスト
- Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Few-Shot Classification of Interactive Activities of Daily Living (InteractADL) [17.15896055218621]
我々は、人間(と物体)間の相互作用を含む複雑なADLを理解するための新しいデータセットとベンチマーク、InteractADLを提案する。
そこで本研究では,クラス名ベクトルを学習することにより,よりセマンティックなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-06-03T17:59:55Z) - Toward Multi-class Anomaly Detection: Exploring Class-aware Unified Model against Inter-class Interference [67.36605226797887]
統一型異常検出(MINT-AD)のためのマルチクラスインプリシトニューラル表現変換器を提案する。
マルチクラス分布を学習することにより、モデルが変換器デコーダのクラス対応クエリ埋め込みを生成する。
MINT-ADは、カテゴリと位置情報を特徴埋め込み空間に投影することができ、さらに分類と事前確率損失関数によって監督される。
論文 参考訳(メタデータ) (2024-03-21T08:08:31Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation [38.08152990071453]
我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
論文 参考訳(メタデータ) (2023-03-23T16:19:43Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Unlimited Neighborhood Interaction for Heterogeneous Trajectory
Prediction [97.40338982628094]
マルチプライカテゴリにおける異種エージェントの軌跡を予測できる,シンプルで効果的な非境界相互作用ネットワーク (UNIN) を提案する。
具体的には、提案した無制限近傍相互作用モジュールは、相互作用に関与するすべてのエージェントの融合特徴を同時に生成する。
階層型グラフアテンションモジュールを提案し,カテゴリ間相互作用とエージェント間相互作用を求める。
論文 参考訳(メタデータ) (2021-07-31T13:36:04Z) - Modulating Localization and Classification for Harmonized Object
Detection [40.82723262074911]
2つのタスクを変調する相互学習フレームワークを提案する。
特に,2つのタスクは,新たな相互ラベル付け戦略によって互いに学習することを余儀なくされる。
COCOデータセットのベースライン検出器に対する大幅なパフォーマンス向上を実現しました。
論文 参考訳(メタデータ) (2021-03-16T10:36:02Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。