論文の概要: A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap
- arxiv url: http://arxiv.org/abs/2407.21438v1
- Date: Wed, 31 Jul 2024 08:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:22:17.987582
- Title: A Plug-and-Play Method for Rare Human-Object Interactions Detection by Bridging Domain Gap
- Title(参考訳): ブリッジ・ドメイン・ギャップによる希少物体間相互作用検出のためのプラグ・アンド・プレイ法
- Authors: Lijun Zhang, Wei Suo, Peng Wang, Yanning Zhang,
- Abstract要約: textbfContext-textbfEnhanced textbfFeature textbfAment (CEFA) と呼ばれる新しいモデルに依存しないフレームワークを提案する。
CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
本手法は, 稀なカテゴリにおけるHOIモデルの検出性能を向上させるために, プラグアンドプレイモジュールとして機能する。
- 参考スコア(独自算出の注目度): 50.079224604394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object interactions (HOI) detection aims at capturing human-object pairs in images and corresponding actions. It is an important step toward high-level visual reasoning and scene understanding. However, due to the natural bias from the real world, existing methods mostly struggle with rare human-object pairs and lead to sub-optimal results. Recently, with the development of the generative model, a straightforward approach is to construct a more balanced dataset based on a group of supplementary samples. Unfortunately, there is a significant domain gap between the generated data and the original data, and simply merging the generated images into the original dataset cannot significantly boost the performance. To alleviate the above problem, we present a novel model-agnostic framework called \textbf{C}ontext-\textbf{E}nhanced \textbf{F}eature \textbf{A}lignment (CEFA) module, which can effectively align the generated data with the original data at the feature level and bridge the domain gap. Specifically, CEFA consists of a feature alignment module and a context enhancement module. On one hand, considering the crucial role of human-object pairs information in HOI tasks, the feature alignment module aligns the human-object pairs by aggregating instance information. On the other hand, to mitigate the issue of losing important context information caused by the traditional discriminator-style alignment method, we employ a context-enhanced image reconstruction module to improve the model's learning ability of contextual cues. Extensive experiments have shown that our method can serve as a plug-and-play module to improve the detection performance of HOI models on rare categories\footnote{https://github.com/LijunZhang01/CEFA}.
- Abstract(参考訳): 人間と物体の相互作用(Human-object Interaction, HOI)の検出は、画像中の人間と物体のペアとそれに対応するアクションをキャプチャすることを目的としている。
高レベルの視覚的推論とシーン理解に向けた重要なステップである。
しかし、現実世界からの自然な偏見のため、既存の手法はまれな人間と物体のペアとほとんど苦労し、準最適結果をもたらす。
近年, 生成モデルの開発において, 補足サンプル群に基づいて, よりバランスのとれたデータセットを構築するという簡単なアプローチが提案されている。
残念ながら、生成されたデータと元のデータの間には大きなドメインギャップがあり、生成されたイメージを元のデータセットにマージするだけでは、パフォーマンスを大幅に向上することはできない。
上記の問題を緩和するために、生成したデータと特徴レベルの元のデータとを効果的に整合させ、ドメインギャップを埋める新しいモデル非依存のフレームワークである \textbf{C}ontext-\textbf{E}nhanced \textbf{F}eature \textbf{A}lignment (CEFA) を提案する。
具体的には、CEFAは機能アライメントモジュールとコンテキスト拡張モジュールで構成される。
一方、HOIタスクにおける人-物対の情報の重要な役割を考えると、特徴アライメントモジュールは、インスタンス情報を集約することで人-物対を整列させる。
一方,従来の識別器方式のアライメント手法による重要なコンテキスト情報を失う問題を軽減するために,コンテキスト強化画像再構成モジュールを用いて,文脈的手がかりの学習能力を向上する。
実験により,本手法は稀なカテゴリにおけるHOIモデルの検出性能を向上させるためのプラグイン・アンド・プレイ・モジュールとして機能することが確認された。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - StyDeSty: Min-Max Stylization and Destylization for Single Domain Generalization [85.18995948334592]
単一のドメインの一般化(単一DG)は、単一のトレーニングドメインからのみ見えないドメインに一般化可能な堅牢なモデルを学ぶことを目的としている。
最先端のアプローチは、主に新しいデータを合成するために、敵対的な摂動やスタイルの強化といったデータ拡張に頼っている。
データ拡張の過程で、ソースと擬似ドメインのアライメントを明示的に考慮したemphStyDeStyを提案する。
論文 参考訳(メタデータ) (2024-06-01T02:41:34Z) - Unbiased Faster R-CNN for Single-source Domain Generalized Object Detection [35.71100602593928]
一般化可能な特徴学習のためのUnbiased Faster R-CNN (UFR)を提案する。
具体的には、因果的観点からの物体検出を定式化し、データバイアスとタスクの特徴バイアスを分析する構造因果モデル(SCM)を構築する。
5つの場面における実験結果から,本手法の顕著な一般化能力が示され,ナイトクリアシーンでは3.9%のmAPが向上した。
論文 参考訳(メタデータ) (2024-05-24T05:34:23Z) - Scene-Graph ViT: End-to-End Open-Vocabulary Visual Relationship Detection [14.22646492640906]
オープン語彙の視覚的関係検出のための単純かつ高効率なデコーダレスアーキテクチャを提案する。
我々のモデルはTransformerベースの画像エンコーダで、オブジェクトをトークンとして表現し、それらの関係を暗黙的にモデル化する。
提案手法は,ビジュアルゲノムおよび大語彙GQAベンチマーク上で,リアルタイムな推論速度で,最先端の関係検出性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T10:15:57Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Global Relation Modeling and Refinement for Bottom-Up Human Pose
Estimation [4.24515544235173]
ボトムアップヒトポーズ推定のための畳み込みニューラルネットワークを提案する。
我々のモデルは、地域によって異なる粒度に焦点を合わせることができる。
COCO と CrowdPose のデータセットで得られた結果は,多人数ポーズ推定の効率的なフレームワークであることを実証している。
論文 参考訳(メタデータ) (2023-03-27T02:54:08Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Intrinsic Relationship Reasoning for Small Object Detection [44.68289739449486]
画像やビデオの小さなオブジェクトは通常、独立した個人ではない。その代わりに、意味的および空間的レイアウトの関係を多かれ少なかれ提示する。
本稿では,オブジェクト間の固有意味と空間的レイアウトの関係をモデル化し,推論する,小さなオブジェクト検出のための新しいコンテキスト推論手法を提案する。
論文 参考訳(メタデータ) (2020-09-02T06:03:05Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。