Fugu-MT 論文翻訳(概要): HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models

論文の概要: HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models

arxiv url: http://arxiv.org/abs/2303.15786v3
Date: Wed, 26 Jul 2023 07:21:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-27 15:53:11.600695
Title: HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models
Title（参考訳）: HOICLIP:視覚言語モデルを用いたHOI検出のための効率的な知識伝達
Authors: Shan Ning, Longtian Qiu, Yongfei Liu, Xuming He
Abstract要約: 人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
参考スコア（独自算出の注目度）: 30.279621764192843
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Human-Object Interaction (HOI) detection aims to localize human-object pairs and recognize their interactions. Recently, Contrastive Language-Image Pre-training (CLIP) has shown great potential in providing interaction prior for HOI detectors via knowledge distillation. However, such approaches often rely on large-scale training data and suffer from inferior performance under few/zero-shot scenarios. In this paper, we propose a novel HOI detection framework that efficiently extracts prior knowledge from CLIP and achieves better generalization. In detail, we first introduce a novel interaction decoder to extract informative regions in the visual feature map of CLIP via a cross-attention mechanism, which is then fused with the detection backbone by a knowledge integration block for more accurate human-object pair detection. In addition, prior knowledge in CLIP text encoder is leveraged to generate a classifier by embedding HOI descriptions. To distinguish fine-grained interactions, we build a verb classifier from training data via visual semantic arithmetic and a lightweight verb representation adapter. Furthermore, we propose a training-free enhancement to exploit global HOI predictions from CLIP. Extensive experiments demonstrate that our method outperforms the state of the art by a large margin on various settings, e.g. +4.04 mAP on HICO-Det. The source code is available in https://github.com/Artanic30/HOICLIP.
Abstract（参考訳）: human-object interaction(hoi)検出は、人間とオブジェクトのペアをローカライズし、それらの相互作用を認識することを目的としている。近年,コントラスト言語-画像事前学習 (CLIP) は,知識蒸留によるHOI検出器の操作に先立って大きな可能性を示している。しかしながら、このようなアプローチは大規模トレーニングデータに依存することが多く、少数/ゼロショットのシナリオではパフォーマンスが劣る。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。具体的には,まず,クロスアテンション機構を介してクリップの視覚特徴マップから情報領域を抽出する新しいインタラクションデコーダを導入し,より正確な人間と対象のペア検出のための知識統合ブロックによって検出バックボーンと融合する。さらに、CLIPテキストエンコーダの事前知識を利用して、HOI記述を埋め込んで分類器を生成する。詳細なインタラクションを識別するために,視覚的意味演算と軽量動詞表現アダプタを用いて,訓練データから動詞分類器を構築する。さらに,CLIPのグローバルHOI予測を利用した学習自由化を提案する。 HICO-Det上の+4.04 mAPなど,様々な設定において,本手法が最先端の手法であることを示す。ソースコードはhttps://github.com/Artanic30/HOICLIPで入手できる。

関連論文リスト

Open-Vocabulary HOI Detection with Interaction-aware Prompt and Concept Calibration [42.24582981160835]
オープンヒューマンオブジェクトインタラクション(HOI)は、人間とオブジェクト間のインタラクションを検出することを目的としている。現在の手法はビジョンと言語モデル(VLM)に頼っていることが多いが、最適な画像エンコーダによる課題に直面している。 Interaction-aware Prompting with Concept (INP-CC) を提案する。
論文参考訳（メタデータ） (2025-08-05T08:33:58Z)
Dynamic Scoring with Enhanced Semantics for Training-Free Human-Object Interaction Detection [51.52749744031413]
人間オブジェクトインタラクション(HOI)検出は、画像内の人間と物体を識別し、その相互作用を解釈することを目的としている。既存のHOIメソッドは、視覚的手がかりからインタラクションを学ぶために手動アノテーションを備えた大規模なデータセットに大きく依存している。本稿では,強化意味論を用いた動的スコーリングのための新しいトレーニング不要なHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-23T12:30:19Z)
Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文参考訳（メタデータ） (2024-08-28T17:59:05Z)
C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文参考訳（メタデータ） (2024-08-19T02:14:25Z)
Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文参考訳（メタデータ） (2024-08-05T14:05:25Z)
Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文参考訳（メタデータ） (2024-04-19T07:24:32Z)
Towards Zero-shot Human-Object Interaction Detection via Vision-Language Integration [14.678931157058363]
本稿では,ゼロショットHOI検出を改善するために,視覚言語モデルの知識を効果的に統合する新しいフレームワーク「KI2HOI」を提案する。より包括的な視覚表現を生成するための効果的な付加的自己認識機構を開発する。我々のモデルは、様々なゼロショットおよびフル教師付き設定において、以前の手法よりも優れています。
論文参考訳（メタデータ） (2024-03-12T02:07:23Z)
Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文参考訳（メタデータ） (2023-09-10T16:27:54Z)
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文参考訳（メタデータ） (2022-09-20T02:01:01Z)
RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection [32.20132357830726]
言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。 RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
論文参考訳（メタデータ） (2022-09-05T07:50:54Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
Detecting Human-Object Interaction via Fabricated Compositional Learning [106.37536031160282]
ヒューマンオブジェクトインタラクション(HOI)検出は、高レベルのシーン理解のための基本的なタスクです。人間は珍しいまたは見えないHOIのサンプルを認識する非常に強力な構成知覚能力があります。オープン長尾HOI検出の課題を解決するために,FCL(Fabricated Compositional Learning)を提案する。
論文参考訳（メタデータ） (2021-03-15T08:52:56Z)
Visual Compositional Learning for Human-Object Interaction Detection [111.05263071111807]
人間-物体相互作用(Human-Object Interaction,HOI)は、画像中の人間と物体の関係を局所化し、推測することを目的としている。オブジェクトと動詞の型の組み合わせの膨大な数が、長い尾の分布を形成するため、これは難しい。私たちは、この問題に効果的に対処するための、シンプルで効率的なフレームワークである、深いビジュアルコンポジション学習フレームワークを考案しました。
論文参考訳（メタデータ） (2020-07-24T08:37:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。