論文の概要: CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation
- arxiv url: http://arxiv.org/abs/2407.11433v1
- Date: Tue, 16 Jul 2024 06:55:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 16:22:29.723348
- Title: CycleHOI: Improving Human-Object Interaction Detection with Cycle Consistency of Detection and Generation
- Title(参考訳): CycleHOI: 検出・生成のサイクル整合性による人間と物体の相互作用検出の改善
- Authors: Yisen Wang, Yao Teng, Limin Wang,
- Abstract要約: 本稿では,人間と物体の相互作用(HOI)の検出性能を高めるために,CycleHOIという新しい学習フレームワークを提案する。
我々の鍵となる設計は、HOI検出器のトレーニングのための新しいサイクル整合性損失を導入することである。
我々は,CycleHOIの有効性と一般化力を検証するための広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 37.45945633515955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition and generation are two fundamental tasks in computer vision, which are often investigated separately in the exiting literature. However, these two tasks are highly correlated in essence as they both require understanding the underline semantics of visual concepts. In this paper, we propose a new learning framework, coined as CycleHOI, to boost the performance of human-object interaction (HOI) detection by bridging the DETR-based detection pipeline and the pre-trained text-to-image diffusion model. Our key design is to introduce a novel cycle consistency loss for the training of HOI detector, which is able to explicitly leverage the knowledge captured in the powerful diffusion model to guide the HOI detector training. Specifically, we build an extra generation task on top of the decoded instance representations from HOI detector to enforce a detection-generation cycle consistency. Moreover, we perform feature distillation from diffusion model to detector encoder to enhance its representation power. In addition, we further utilize the generation power of diffusion model to augment the training set in both aspects of label correction and sample generation. We perform extensive experiments to verify the effectiveness and generalization power of our CycleHOI with three HOI detection frameworks on two public datasets: HICO-DET and V-COCO. The experimental results demonstrate our CycleHOI can significantly improve the performance of the state-of-the-art HOI detectors.
- Abstract(参考訳): 認識と生成は、コンピュータビジョンにおける2つの基本的なタスクであり、しばしば出口文学において別々に研究される。
しかし、これら2つのタスクは、視覚概念の根底的な意味論を理解する必要があるため、本質的に非常に相関性が高い。
本稿では,DeTRに基づく検出パイプラインと事前学習したテキスト・画像拡散モデルをブリッジすることで,人物体間相互作用(HOI)の検出性能を向上させるための学習フレームワークCycleHOIを提案する。
我々のキーとなる設計は、HOI検出器のトレーニングに新たなサイクル整合性損失を導入することであり、これはHOI検出器のトレーニングをガイドするために、強力な拡散モデルで得られた知識を明示的に活用することができる。
具体的には、HOI検出器からデコードされたインスタンス表現の上に余分な生成タスクを構築し、検出・生成サイクルの一貫性を強制する。
さらに,拡散モデルから検出器エンコーダへの特徴蒸留を行い,その表現力を高める。
さらに,拡散モデルの生成力を利用してラベル補正とサンプル生成の両面でトレーニングセットを増強する。
HICO-DETとV-COCOの2つの公開データセット上で,3つのHOI検出フレームワークを用いて,CycleHOIの有効性と一般化力を検証した。
実験の結果,CycleHOIは最先端のHOI検出器の性能を大幅に向上させることができることがわかった。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Efficient Meta-Learning Enabled Lightweight Multiscale Few-Shot Object Detection in Remote Sensing Images [15.12889076965307]
YOLOv7ワンステージ検出器は、新しいメタラーニングトレーニングフレームワークが組み込まれている。
この変換により、検出器はFSODのタスクに十分対応できると同時に、その固有の軽量化の利点を活かすことができる。
提案検出器の有効性を検証するため, 現状の検出器と性能比較を行った。
論文 参考訳(メタデータ) (2024-04-29T04:56:52Z) - D$^3$: Scaling Up Deepfake Detection by Learning from Discrepancy [11.239248133240126]
我々は、より一般化と堅牢性のある普遍的なディープフェイク検出システムに向けた一歩を踏み出した。
本稿では,複数のジェネレータから汎用的なアーティファクトを学習することを目的として,Drepancy Deepfake Detectorフレームワークを提案する。
本フレームワークは,ID性能を維持しながら,現在のSOTA法と比較してOOD検査の精度を5.3%向上させる。
論文 参考訳(メタデータ) (2024-04-06T10:45:02Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - InstaGen: Enhancing Object Detection by Training on Synthetic Dataset [59.445498550159755]
本稿では,オブジェクト検出機能の向上,例えばカテゴリ拡大や検出性能の向上など,新たなパラダイムを提案する。
我々は、インスタンスレベルのグラウンドヘッドを事前訓練された生成拡散モデルに統合し、生成された画像のインスタンスをローカライズする機能で拡張する。
我々は、InstaGenと呼ばれる拡散モデルの強化版がデータシンセサイザーとして機能することを示すために、徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-08T18:59:53Z) - Boosting Human-Object Interaction Detection with Text-to-Image Diffusion
Model [22.31860516617302]
本稿では,事前学習したテキスト画像拡散モデルに基づく新しいHOI検出方式であるDiffHOIを紹介する。
HOIデータセットのギャップを埋めるために、クラスバランス、大規模、高多様性の合成データセットであるSynHOIを提案する。
実験により、DiffHOIは通常の検出(41.50 mAP)とゼロショット検出において、最先端の技術を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-20T17:59:23Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。