論文の概要: Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2204.04836v1
- Date: Mon, 11 Apr 2022 02:45:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 05:17:29.472962
- Title: Consistency Learning via Decoding Path Augmentation for Transformers in
Human Object Interaction Detection
- Title(参考訳): 物体干渉検出における変圧器の復号経路拡張による一貫性学習
- Authors: Jihwan Park, SeungJun Lee, Hwan Heo, Hyeong Kyu Choi, Hyunwoo J.Kim
- Abstract要約: 変換器のHOI検出を改善するために,クロスパス整合性学習(CPC)を提案する。
提案手法の有効性を実証し, V-COCO, HICO-DETを改良した。
- 参考スコア(独自算出の注目度): 11.928724924319138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-Object Interaction detection is a holistic visual recognition task that
entails object detection as well as interaction classification. Previous works
of HOI detection has been addressed by the various compositions of subset
predictions, e.g., Image -> HO -> I, Image -> HI -> O. Recently, transformer
based architecture for HOI has emerged, which directly predicts the HOI
triplets in an end-to-end fashion (Image -> HOI). Motivated by various
inference paths for HOI detection, we propose cross-path consistency learning
(CPC), which is a novel end-to-end learning strategy to improve HOI detection
for transformers by leveraging augmented decoding paths. CPC learning enforces
all the possible predictions from permuted inference sequences to be
consistent. This simple scheme makes the model learn consistent
representations, thereby improving generalization without increasing model
capacity. Our experiments demonstrate the effectiveness of our method, and we
achieved significant improvement on V-COCO and HICO-DET compared to the
baseline models. Our code is available at https://github.com/mlvlab/CPChoi.
- Abstract(参考訳): 人間とオブジェクトのインタラクション検出は、オブジェクト検出とインタラクションの分類を伴う総合的なビジュアル認識タスクである。
HOI検出のこれまでの作業は,画像 -> HO -> I, Image -> HI -> O. 最近,HOIのトランスフォーマーベースアーキテクチャが出現し,HoI三重項をエンドツーエンドで直接予測する(画像 -> HOI)。
HOI検出のための様々な推論パスを動機として,拡張デコードパスを利用して変換器のHOI検出を改善するための新しいエンドツーエンド学習戦略であるクロスパス一貫性学習(CPC)を提案する。
cpc学習は、置換された推論シーケンスから可能なすべての予測を一貫性を持たせます。
この単純なスキームはモデルに一貫した表現を学習させ、モデル容量を増加させることなく一般化を改善する。
提案手法の有効性を実証し,v-cocoおよびhico-detをベースラインモデルと比較して有意に改善した。
私たちのコードはhttps://github.com/mlvlab/cpchoiで利用可能です。
関連論文リスト
- Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。
モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。
GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文 参考訳(メタデータ) (2024-06-26T18:52:53Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Efficient Adaptive Human-Object Interaction Detection with
Concept-guided Memory [64.11870454160614]
概念誘導メモリ(ADA-CM)を用いた適応型HOI検出器を提案する。
ADA-CMには2つの操作モードがある。最初のモードでは、トレーニング不要のパラダイムで新しいパラメータを学習することなくチューニングできる。
提案手法は, HICO-DET と V-COCO のデータセットに対して, より少ないトレーニング時間で, 最新技術による競合的な結果を得る。
論文 参考訳(メタデータ) (2023-09-07T13:10:06Z) - Exploring Structure-aware Transformer over Interaction Proposals for
Human-Object Interaction Detection [119.93025368028083]
我々は、新しいトランスフォーマー型ヒューマンオブジェクトインタラクション(HOI)検出器、すなわち、インタラクション提案(STIP)による構造認識トランスフォーマーを設計する。
STIPはHOIセット予測の過程を、まず相互作用の提案生成を行い、次に構造認識変換器を介して非パラメトリック相互作用提案をHOI予測に変換する2つのフェーズに分解する。
構造対応トランスフォーマーは、相互作用提案間の相同的意味構造を付加してバニラトランスフォーマーをアップグレードし、各相互作用提案内の人間・物体の局所的空間構造を付加し、HOIを強化する。
論文 参考訳(メタデータ) (2022-06-13T16:21:08Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - ProFormer: Learning Data-efficient Representations of Body Movement with
Prototype-based Feature Augmentation and Visual Transformers [31.908276711898548]
身体からのデータ効率の高い認識法は、画像のような配列として構造化された骨格配列をますます活用している。
我々は、このパラダイムをトランスフォーマーネットワークの観点から見て、初めて、骨格運動のデータ効率の高いエンコーダとして視覚トランスフォーマーを探索する。
私たちのパイプラインでは、画像のような表現としてキャストされたボディポーズシーケンスをパッチ埋め込みに変換し、深いメトリック学習に最適化されたビジュアルトランスフォーマーバックボーンに渡します。
論文 参考訳(メタデータ) (2022-02-23T11:11:54Z) - Detecting Human-Object Interactions with Object-Guided Cross-Modal
Calibrated Semantics [6.678312249123534]
我々は,オブジェクト指向の統計モデルを用いて,エンドツーエンドのモデルを強化することを目指している。
本稿では,Verb Semantic Model (VSM) とセマンティックアグリゲーション(セマンティックアグリゲーション)を用いて,このオブジェクト誘導階層から利益を得る方法を提案する。
上記のモジュールの組み合わせは、オブジェクト指向クロスモーダルネットワーク(OCN)を構成する。
論文 参考訳(メタデータ) (2022-02-01T07:39:04Z) - Reformulating HOI Detection as Adaptive Set Prediction [25.44630995307787]
我々は適応セット予測問題としてHOI検出を再構成する。
本稿では,並列インスタンスとインタラクションブランチを備えた適応型セットベースワンステージフレームワーク(as-net)を提案する。
この手法は、人間のポーズや言語的特徴を必要とせず、従来の最先端の手法を上回ります。
論文 参考訳(メタデータ) (2021-03-10T10:40:33Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。