Fugu-MT 論文翻訳(概要): Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels

論文の概要: Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels

arxiv url: http://arxiv.org/abs/2309.05069v1
Date: Sun, 10 Sep 2023 16:27:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 14:47:45.535306
Title: Exploiting CLIP for Zero-shot HOI Detection Requires Knowledge Distillation at Multiple Levels
Title（参考訳）: ゼロショットHOI検出のための爆発的CLIPは複数のレベルでの知識蒸留を必要とする
Authors: Bo Wan and Tinne Tuytelaars
Abstract要約: 大規模事前学習型視覚言語モデルであるCLIPを,多段階の知識蒸留に利用した。私たちのモデルをトレーニングするために、CLIPを使用して、グローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。このモデルは、完全な教師付きおよび弱い教師付き手法に匹敵する強力な性能を達成する。
参考スコア（独自算出の注目度）: 52.50670006414656
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate the task of zero-shot human-object interaction (HOI) detection, a novel paradigm for identifying HOIs without the need for task-specific annotations. To address this challenging task, we employ CLIP, a large-scale pre-trained vision-language model (VLM), for knowledge distillation on multiple levels. Specifically, we design a multi-branch neural network that leverages CLIP for learning HOI representations at various levels, including global images, local union regions encompassing human-object pairs, and individual instances of humans or objects. To train our model, CLIP is utilized to generate HOI scores for both global images and local union regions that serve as supervision signals. The extensive experiments demonstrate the effectiveness of our novel multi-level CLIP knowledge integration strategy. Notably, the model achieves strong performance, which is even comparable with some fully-supervised and weakly-supervised methods on the public HICO-DET benchmark.
Abstract（参考訳）: 本稿では、タスク固有のアノテーションを必要とせずにHOIを識別するための新しいパラダイムである、ゼロショットヒューマンオブジェクトインタラクション(HOI)検出のタスクについて検討する。この課題に対処するために,我々は,多段階の知識蒸留にvlm(large-scale pre-trained vision-language model)を使用する。具体的には、CLIPを利用した多分岐ニューラルネットワークを設計し、グローバル画像、人間とオブジェクトのペアを含む局所的な連合領域、人間やオブジェクトの個々のインスタンスなど、さまざまなレベルでHOI表現を学習する。我々のモデルをトレーニングするために、CLIPを使用して、監督信号として機能するグローバルイメージとローカルユニオン領域の両方のHOIスコアを生成する。本研究は多段階CLIP知識統合戦略の有効性を実証するものである。特に、このモデルは、HICO-DETベンチマークの完全な教師付きおよび弱教師付きメソッドに匹敵する高い性能を達成する。

関連論文リスト

Simple Image-level Classification Improves Open-vocabulary Object Detection [27.131298903486474]
Open-Vocabulary Object Detection (OVOD) は、検出モデルが訓練された与えられたベースカテゴリのセットを超えて、新しいオブジェクトを検出することを目的としている。近年のOVOD法は,CLIPなどの画像レベルの事前学習型視覚言語モデル(VLM)を,地域レベルの知識蒸留,地域レベルの学習,地域レベルの事前学習といった領域レベルのオブジェクト検出タスクに適応させることに重点を置いている。これらの手法は、地域視覚概念の認識において顕著な性能を示してきたが、VLMの強力なグローバルシーン理解能力を活用するには弱い。
論文参考訳（メタデータ） (2023-12-16T13:06:15Z)
Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文参考訳（メタデータ） (2023-12-01T15:47:04Z)
Detecting Any Human-Object Interaction Relationship: Universal HOI Detector with Spatial Prompt Learning on Foundation Models [55.20626448358655]
本研究では,ビジョン・ランゲージ(VL)基礎モデルと大規模言語モデル(LLM)を用いて,オープンワールド環境におけるユニバーサルインタラクション認識について検討する。我々の設計にはHO Prompt-guided Decoder (HOPD) が含まれており、基礎モデルにおける高次関係表現と画像内の様々なHOペアとの結合を容易にする。オープンカテゴリの対話認識では,対話文と解釈文の2つのタイプがサポートされている。
論文参考訳（メタデータ） (2023-11-07T08:27:32Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Exploring Open-Vocabulary Semantic Segmentation without Human Labels [76.15862573035565]
我々は、既存の事前学習された視覚言語モデル(VL)を利用して意味的セグメンテーションモデルを訓練するZeroSegを提案する。 ZeroSegは、VLモデルで学んだ視覚概念をセグメントトークンの集合に蒸留することでこれを克服し、それぞれが対象画像の局所化領域を要約する。提案手法は,他のゼロショットセグメンテーション法と比較して,同じトレーニングデータを用いた場合と比較して,最先端性能を実現する。
論文参考訳（メタデータ） (2023-06-01T08:47:06Z)
HOICLIP: Efficient Knowledge Transfer for HOI Detection with Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-28T07:54:54Z)
From MNIST to ImageNet and Back: Benchmarking Continual Curriculum Learning [9.104068727716294]
継続学習(CL)は、機械学習研究で最も有望なトレンドの1つである。 6つの画像データセットから複数の異種タスクを含む2つの新しいCLベンチマークを導入する。さらに、タスクが複雑化と減少の順序で表されるように、ベンチマークを構造化します。
論文参考訳（メタデータ） (2023-03-16T18:11:19Z)
Weakly-supervised HOI Detection via Prior-guided Bi-level Representation Learning [66.00600682711995]
ヒューマンオブジェクトインタラクション(HOI)検出は、人間中心のシーン理解において重要な役割を担い、多くの視覚タスクの基本的なビルディングブロックとして機能する。 HOI検出のための汎用的でスケーラブルな戦略の1つは、画像レベルのアノテーションからのみ学習する弱い監視を使用することである。これは、不明瞭な人間と物体の関連、HOIを検出する大きな探索空間、非常にノイズの多い訓練信号によって本質的に困難である。画像レベルとHOIインスタンスレベルの両方で事前の知識を組み込むことができるCLIP誘導HOI表現を開発し、不正な人間とオブジェクトの関連性を実証するために自己学習機構を採用する。
論文参考訳（メタデータ） (2023-03-02T14:41:31Z)
Learning to Discover and Detect Objects [43.52208526783969]
新たなクラス発見・検出・ローカライゼーション(NCDL)の課題に取り組む。この設定では、よく観察されるクラスのオブジェクトのラベル付きソースデータセットを仮定する。検出ネットワークをエンドツーエンドでトレーニングすることにより、さまざまなクラスに対してすべてのリージョン提案を分類することが可能になる。
論文参考訳（メタデータ） (2022-10-19T17:59:55Z)
UniT: Unified Knowledge Transfer for Any-shot Object Detection and Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文参考訳（メタデータ） (2020-06-12T22:45:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。