論文の概要: Unseen No More: Unlocking the Potential of CLIP for Generative Zero-shot HOI Detection
- arxiv url: http://arxiv.org/abs/2408.05974v1
- Date: Mon, 12 Aug 2024 08:02:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 14:35:18.950078
- Title: Unseen No More: Unlocking the Potential of CLIP for Generative Zero-shot HOI Detection
- Title(参考訳): もはや見えない: 生成ゼロショットHOI検出のためのCLIPの可能性を解き放つ
- Authors: Yixin Guo, Yu Liu, Jianghao Li, Weimin Wang, Qi Jia,
- Abstract要約: HOIGENと呼ばれるゼロショットHOI検出のためのCLIPを用いた第1世代モデルを提案する。
CLIPを注入した特徴発生器を人・物・組合の特徴の生成に応じて開発する。
HOIスコアを豊かにするために、ペアワイズHOI認識ブランチに生成プロトタイプバンクを構築し、画像ワイズHOI認識ブランチにマルチ知識プロトタイプバンクを構築した。
- 参考スコア(独自算出の注目度): 6.4348035950413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot human-object interaction (HOI) detector is capable of generalizing to HOI categories even not encountered during training. Inspired by the impressive zero-shot capabilities offered by CLIP, latest methods strive to leverage CLIP embeddings for improving zero-shot HOI detection. However, these embedding-based methods train the classifier on seen classes only, inevitably resulting in seen-unseen confusion for the model during inference. Besides, we find that using prompt-tuning and adapters further increases the gap between seen and unseen accuracy. To tackle this challenge, we present the first generation-based model using CLIP for zero-shot HOI detection, coined HOIGen. It allows to unlock the potential of CLIP for feature generation instead of feature extraction only. To achieve it, we develop a CLIP-injected feature generator in accordance with the generation of human, object and union features. Then, we extract realistic features of seen samples and mix them with synthetic features together, allowing the model to train seen and unseen classes jointly. To enrich the HOI scores, we construct a generative prototype bank in a pairwise HOI recognition branch, and a multi-knowledge prototype bank in an image-wise HOI recognition branch, respectively. Extensive experiments on HICO-DET benchmark demonstrate our HOIGen achieves superior performance for both seen and unseen classes under various zero-shot settings, compared with other top-performing methods. Code is available at: https://github.com/soberguo/HOIGen
- Abstract(参考訳): ゼロショット・ヒューマン・オブジェクト・インタラクション(HOI)検出器は、トレーニング中に遭遇しない場合でもHOIカテゴリに一般化することができる。
CLIPが提供する印象的なゼロショット機能にインスパイアされた最新のメソッドは、ゼロショットHOI検出を改善するためにCLIPの埋め込みを活用しようとしている。
しかし、これらの埋め込みベースのメソッドは、参照クラスのみに分類器を訓練し、必然的に推論中にモデルに見知らぬ混乱をもたらす。
さらに, プロンプトチューニングとアダプタを用いることで, 目視精度と目視精度の差が増大することがわかった。
この課題に対処するため,HOIGENと呼ばれるゼロショットHOI検出のためのCLIPを用いた第1世代モデルを提案する。
機能抽出のみではなく、機能生成のためのCLIPの可能性をアンロックすることができる。
そこで我々は,CLIPを注入した特徴発生器を人・物・組合の特徴の生成に応じて開発する。
そして,実例のリアルな特徴を抽出し,それらを合成特徴と組み合わせることで,モデルが目に見えるクラスと目に見えないクラスを共同で訓練することを可能にする。
HOIスコアを豊かにするために、ペアワイズHOI認識ブランチに生成プロトタイプバンクを、画像ワイズHOI認識ブランチに多知識プロトタイプバンクをそれぞれ構築する。
HICO-DETベンチマークの大規模な実験により、HOIGENは、他のトップパフォーマンス手法と比較して、様々なゼロショット設定下で、見えていないクラスと見えないクラスの両方で優れたパフォーマンスを達成できることを示した。
コードは、https://github.com/soberguo/HOIGenで入手できる。
関連論文リスト
- C2P-CLIP: Injecting Category Common Prompt in CLIP to Enhance Generalization in Deepfake Detection [98.34703790782254]
本稿では、カテゴリ共通プロンプトCLIPを紹介し、カテゴリ共通プロンプトをテキストエンコーダに統合し、カテゴリ関連概念をイメージエンコーダに注入する。
提案手法は,テスト中に追加パラメータを導入することなく,元のCLIPと比較して検出精度が12.41%向上した。
論文 参考訳(メタデータ) (2024-08-19T02:14:25Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge
Distillation at Multiple Levels [52.50670006414656]
大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。
私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。
このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
論文 参考訳(メタデータ) (2023-09-10T16:27:54Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - Zero-Shot Logit Adjustment [89.68803484284408]
Generalized Zero-Shot Learning (GZSL) は意味記述に基づく学習技術である。
本稿では,分類器の改良を無視しつつ,ジェネレータの効果を高める新しい世代ベース手法を提案する。
実験により,提案手法が基本生成器と組み合わせた場合の最先端化を実現し,様々なゼロショット学習フレームワークを改良できることが実証された。
論文 参考訳(メタデータ) (2022-04-25T17:54:55Z) - No Fear of Heterogeneity: Classifier Calibration for Federated Learning
with Non-IID Data [78.69828864672978]
実世界のフェデレーションシステムにおける分類モデルのトレーニングにおける中心的な課題は、非IIDデータによる学習である。
このアルゴリズムは, 近似されたssian混合モデルからサンプリングした仮想表現を用いて分類器を調整する。
実験の結果,CIFAR-10,CIFAR-100,CINIC-10など,一般的なフェデレーション学習ベンチマークにおけるCCVRの現状が示された。
論文 参考訳(メタデータ) (2021-06-09T12:02:29Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。