論文の概要: Category-Aware Transformer Network for Better Human-Object Interaction
Detection
- arxiv url: http://arxiv.org/abs/2204.04911v1
- Date: Mon, 11 Apr 2022 07:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:25:56.960783
- Title: Category-Aware Transformer Network for Better Human-Object Interaction
Detection
- Title(参考訳): カテゴリー認識型トランスフォーマネットワークによる人間と物体のインタラクション検出
- Authors: Leizhen Dong, Zhimin Li, Kunlun Xu, Zhijun Zhang, Luxin Yan, Sheng
Zhong, Xu Zou
- Abstract要約: カテゴリ認識型セマンティック情報を用いてObject Queryを初期化することにより,トランスフォーマーベースのHOI検出器の高速化の課題について検討する。
具体的には、Object Queryは、外部オブジェクト検出モデルで表されるカテゴリ先行によって表現され、パフォーマンスが向上する。
我々のアイデアを取り入れたHOI検出モデルは、新しい最先端結果を得るために、ベースラインを大きなマージンで上回ります。
- 参考スコア(独自算出の注目度): 20.857034771924997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interactions (HOI) detection, which aims to localize a human and
a relevant object while recognizing their interaction, is crucial for
understanding a still image. Recently, transformer-based models have
significantly advanced the progress of HOI detection. However, the capability
of these models has not been fully explored since the Object Query of the model
is always simply initialized as just zeros, which would affect the performance.
In this paper, we try to study the issue of promoting transformer-based HOI
detectors by initializing the Object Query with category-aware semantic
information. To this end, we innovatively propose the Category-Aware
Transformer Network (CATN). Specifically, the Object Query would be initialized
via category priors represented by an external object detection model to yield
better performance. Moreover, such category priors can be further used for
enhancing the representation ability of features via the attention mechanism.
We have firstly verified our idea via the Oracle experiment by initializing the
Object Query with the groundtruth category information. And then extensive
experiments have been conducted to show that a HOI detection model equipped
with our idea outperforms the baseline by a large margin to achieve a new
state-of-the-art result.
- Abstract(参考訳): 人間と関係する物体をその相互作用を認識しながら位置決めすることを目的とした人物体相互作用検出(HOI)は、静止画像を理解する上で重要である。
近年,変圧器モデルがhoi検出の進展を著しく改善している。
しかし、モデルのオブジェクトクエリは常に単にゼロとして初期化され、パフォーマンスに影響するため、これらのモデルの能力は十分に検討されていない。
本稿では,対象クエリーをカテゴリ認識意味情報で初期化することにより,トランスフォーマティブ型hoi検出器の促進について検討する。
そこで我々は,CATN(Calegory-Aware Transformer Network)を提案する。
具体的には、オブジェクトクエリは、外部オブジェクト検出モデルで表現されるカテゴリ優先によって初期化され、パフォーマンスが向上する。
また、これらのカテゴリ優先は、注意機構を介して特徴の表現能力を高めるためにさらに使用できる。
私たちはまず、Oracleの実験を通じてObject Queryを基礎となるカテゴリ情報で初期化することで、私たちのアイデアを検証しました。
そして、我々のアイデアを備えたhoi検出モデルが、新たな最先端結果を達成するために、ベースラインを大きなマージンで上回っていることを示すために、広範な実験が行われました。
関連論文リスト
- Dynamic Object Queries for Transformer-based Incremental Object Detection [45.41291377837515]
インクリメンタルオブジェクト検出は、新しいクラスを逐次学習することを目的としている。
従来の方法論は主に知識の蒸留と模範的な再生を通じて忘れる問題に取り組む。
安定塑性トレードオフを実現するためのモデル表現能力を漸進的に拡張するDyQ-DETRを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:29:34Z) - Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - Zero-shot Degree of Ill-posedness Estimation for Active Small Object Change Detection [8.977792536037956]
日常的な屋内ナビゲーションでは、ロボットは区別できない小さな変化物体を検出する必要がある。
既存の技術は、変更検出モデルを正規化するために、高品質なクラス固有オブジェクトに依存している。
本研究では,受動とアクティブビジョンの両方を改善するために,DoIの概念を検討する。
論文 参考訳(メタデータ) (2024-05-10T01:56:39Z) - Relational Prior Knowledge Graphs for Detection and Instance
Segmentation [24.360473253478112]
本稿では,先行値を用いたオブジェクト機能拡張グラフを提案する。
COCOの実験的評価は、リレーショナル先行で拡張されたシーングラフの利用は、オブジェクト検出とインスタンスセグメンテーションの利点をもたらすことを示している。
論文 参考訳(メタデータ) (2023-10-11T15:15:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - Suspected Object Matters: Rethinking Model's Prediction for One-stage
Visual Grounding [93.82542533426766]
疑似オブジェクト間の対象オブジェクト選択を促進するため,疑似オブジェクト変換機構(SOT)を提案する。
SOTは既存のCNNとTransformerベースのワンステージ視覚グラウンドにシームレスに統合できる。
実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-03-10T06:41:07Z) - Scale-aware Automatic Augmentation for Object Detection [63.087930708444695]
オブジェクト検出のためのデータ拡張ポリシーを学ぶために,Scale-aware AutoAugを提案する。
実験では、Scale-aware AutoAugはさまざまな物体検出器に有意で一貫した改善をもたらす。
論文 参考訳(メタデータ) (2021-03-31T17:11:14Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z) - Novel Human-Object Interaction Detection via Adversarial Domain
Generalization [103.55143362926388]
本研究では,新たな人-物間相互作用(HOI)検出の問題点を考察し,モデルの一般化能力を向上させることを目的とした。
この課題は、主に対象と述語の大きな構成空間に起因し、全ての対象と述語の組み合わせに対する十分な訓練データが欠如している。
本稿では,予測のためのオブジェクト指向不変の特徴を学習するために,対数領域の一般化の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2020-05-22T22:02:56Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。