論文の概要: Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory
- arxiv url: http://arxiv.org/abs/2309.03696v1
- Date: Thu, 7 Sep 2023 13:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 12:57:50.686721
- Title: Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory
- Title(参考訳): 概念誘導メモリを用いた適応型物体干渉検出
- Authors: Ting Lei, Fabian Caba, Qingchao Chen, Hailin Jin, Yuxin Peng, Yang Liu
- Abstract要約: 概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
- 参考スコア(独自算出の注目度): 64.11870454160614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Object Interaction (HOI) detection aims to localize and infer the
relationships between a human and an object. Arguably, training supervised
models for this task from scratch presents challenges due to the performance
drop over rare classes and the high computational cost and time required to
handle long-tailed distributions of HOIs in complex HOI scenes in realistic
settings. This observation motivates us to design an HOI detector that can be
trained even with long-tailed labeled data and can leverage existing knowledge
from pre-trained models. Inspired by the powerful generalization ability of the
large Vision-Language Models (VLM) on classification and retrieval tasks, we
propose an efficient Adaptive HOI Detector with Concept-guided Memory (ADA-CM).
ADA-CM has two operating modes. The first mode makes it tunable without
learning new parameters in a training-free paradigm. Its second mode
incorporates an instance-aware adapter mechanism that can further efficiently
boost performance if updating a lightweight set of parameters can be afforded.
Our proposed method achieves competitive results with state-of-the-art on the
HICO-DET and V-COCO datasets with much less training time. Code can be found at
https://github.com/ltttpku/ADA-CM.
- Abstract(参考訳): human object interaction(hoi)検出は、人間とオブジェクトの関係を局所化し、推論することを目的としている。
おそらく、このタスクの教師付きモデルをスクラッチからトレーニングすることは、稀なクラスに対する性能低下と、複雑なHOIシーンにおけるHOIの長期分布を扱うのに必要な高い計算コストと時間によって、現実的な環境下での課題となる。
この観察により、長い尾のラベル付きデータでも訓練できるHOI検出器を設計し、事前訓練されたモデルから既存の知識を活用することができる。
大規模視覚言語モデル(vlm)の分類・検索タスクにおける強力な一般化能力に触発されて,概念誘導メモリ(ada-cm)を用いた効率的な適応型hoi検出器を提案する。
ADA-CMには2つの動作モードがある。
最初のモードでは、トレーニングフリーのパラダイムで新しいパラメータを学習せずにチューニングできる。
第2モードにはインスタンス対応アダプタ機構が組み込まれており、ライトウェイトなパラメータセットを更新することで、パフォーマンスをさらに高めることができる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合結果を得る。
コードはhttps://github.com/ltttpku/ada-cmにある。
関連論文リスト
- Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - Pre-train, Adapt and Detect: Multi-Task Adapter Tuning for Camouflaged
Object Detection [38.5505943598037]
カモフラージュされた物体を検出するために, 事前学習, 適応, 検出のパラダイムを提案する。
大規模な事前学習モデルを導入することで、大量のマルチモーダルデータから得られた豊富な知識を直接CODに転送することができる。
提案手法は既存のCODモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-20T08:25:38Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - MM-FSOD: Meta and metric integrated few-shot object detection [14.631208179789583]
メトリクス学習とメタラーニングを統合した効果的なオブジェクト検出フレームワーク(MM-FSOD)を提案する。
我々のモデルは、トレーニングサンプルにない新しいカテゴリを正確に認識できるクラスに依存しない検出モデルである。
論文 参考訳(メタデータ) (2020-12-30T14:02:52Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。