論文の概要: Agglomerative Transformer for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2308.08370v1
- Date: Wed, 16 Aug 2023 13:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:14:47.310795
- Title: Agglomerative Transformer for Human-Object Interaction Detection
- Title(参考訳): 人間と物体の相互作用検出のための凝集変換器
- Authors: Danyang Tu, Wei Sun, Guangtao Zhai, Wei Shen
- Abstract要約: AGERは、パッチトークンを動的にクラスタリングし、クラスタセンターをテキストガイダンスでインスタンスにアライメントすることで、インスタンストークンを取得する。
AGERはGFLOPsを8.5%削減し、FPSを36%改善した。
- 参考スコア(独自算出の注目度): 47.500169215728825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an agglomerative Transformer (AGER) that enables Transformer-based
human-object interaction (HOI) detectors to flexibly exploit extra
instance-level cues in a single-stage and end-to-end manner for the first time.
AGER acquires instance tokens by dynamically clustering patch tokens and
aligning cluster centers to instances with textual guidance, thus enjoying two
benefits: 1) Integrality: each instance token is encouraged to contain all
discriminative feature regions of an instance, which demonstrates a significant
improvement in the extraction of different instance-level cues and subsequently
leads to a new state-of-the-art performance of HOI detection with 36.75 mAP on
HICO-Det. 2) Efficiency: the dynamical clustering mechanism allows AGER to
generate instance tokens jointly with the feature learning of the Transformer
encoder, eliminating the need of an additional object detector or instance
decoder in prior methods, thus allowing the extraction of desirable extra cues
for HOI detection in a single-stage and end-to-end pipeline. Concretely, AGER
reduces GFLOPs by 8.5% and improves FPS by 36%, even compared to a vanilla
DETR-like pipeline without extra cue extraction.
- Abstract(参考訳): 本稿では,Transformer-based Human-object Interaction (HOI) 検出器を単一段階およびエンドツーエンドで柔軟に活用するアグリメティブトランスフォーマを提案する。
AGERは、パッチトークンを動的にクラスタリングし、クラスタセンターをテキストガイダンスでインスタンスにアライメントすることで、インスタンストークンを取得する。
1) 整合性:各インスタンストークンは、インスタンスのすべての識別的特徴領域を含むように奨励され、異なるインスタンスレベルのキューの抽出において大幅な改善が示され、HICO-Det上で36.75mAPのHOI検出の新たな最先端性能がもたらされる。
2) 効率性: 動的クラスタリング機構により、AGERはTransformerエンコーダの機能学習と共同でインスタンストークンを生成でき、それ以前の方法で追加のオブジェクト検出器やインスタンスデコーダを不要にすることで、単一ステージとエンドツーエンドのパイプラインでHOI検出のための望ましい余分なキューを抽出できる。
具体的には、agerはgflopsを8.5%削減し、余分なキュア抽出を伴わないバニラdetrのようなパイプラインと比較してもfpsを36%改善する。
関連論文リスト
- A Tri-Layer Plugin to Improve Occluded Detection [100.99802831241583]
本研究では,2段階物体検出装置の頭部検出のための単純な''モジュールを提案し,部分閉塞物体のリコールを改善する。
モジュールは、ターゲットオブジェクト、オクルーダー、オクラデーのセグメンテーションマスクの三層を予測し、それによってターゲットオブジェクトのマスクをより正確に予測することができる。
また,COCO評価データセットを構築し,部分閉塞オブジェクトと分離オブジェクトのリコール性能を測定した。
論文 参考訳(メタデータ) (2022-10-18T17:59:51Z) - Rethinking the Aligned and Misaligned Features in One-stage Object
Detection [9.270523894683278]
1段階の物体検出器は、検出結果を予測するために点特徴に依存する。
タスク毎に整列および非整合性を生成できるシンプルでプラグイン演算子を提案する。
OAT(object-aligned and task-disentangled operator)に基づくOAT-Netを提案する。
論文 参考訳(メタデータ) (2021-08-27T08:40:37Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z) - Fine-Grained Dynamic Head for Object Detection [68.70628757217939]
本稿では,各インスタンスの異なるスケールからfpn特徴の画素レベルの組み合わせを条件付きで選択する,きめ細かい動的ヘッドを提案する。
実験は,いくつかの最先端検出ベンチマークにおける提案手法の有効性と有効性を示す。
論文 参考訳(メタデータ) (2020-12-07T08:16:32Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - End-to-End Object Detection with Adaptive Clustering Transformer [37.9114488933667]
適応クラスタリング変換器(ACT)と呼ばれる新しい変種が提案され,高分解能入力の計算コストを削減した。
ACTクラスタ クエリはLocality Sensitive Hashing (LSH)を使用して適応的に機能し、クエリキーのインタラクションをap-proximateする。
コードは、実験の複製と検証の容易さの補足としてリリースされている。
論文 参考訳(メタデータ) (2020-11-18T14:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。