論文の概要: Improving Human-Object Interaction Detection via Virtual Image Learning
- arxiv url: http://arxiv.org/abs/2308.02606v1
- Date: Fri, 4 Aug 2023 10:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:50:02.987836
- Title: Improving Human-Object Interaction Detection via Virtual Image Learning
- Title(参考訳): 仮想画像学習による物体間インタラクション検出の改善
- Authors: Shuman Fang, Shuai Liu, Jie Li, Guannan Jiang, Xianming Lin, Rongrong
Ji
- Abstract要約: 人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
- 参考スコア(独自算出の注目度): 68.56682347374422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection aims to understand the interactions
between humans and objects, which plays a curtail role in high-level semantic
understanding tasks. However, most works pursue designing better architectures
to learn overall features more efficiently, while ignoring the long-tail nature
of interaction-object pair categories. In this paper, we propose to alleviate
the impact of such an unbalanced distribution via Virtual Image Leaning (VIL).
Firstly, a novel label-to-image approach, Multiple Steps Image Creation
(MUSIC), is proposed to create a high-quality dataset that has a consistent
distribution with real images. In this stage, virtual images are generated
based on prompts with specific characterizations and selected by
multi-filtering processes. Secondly, we use both virtual and real images to
train the model with the teacher-student framework. Considering the initial
labels of some virtual images are inaccurate and inadequate, we devise an
Adaptive Matching-and-Filtering (AMF) module to construct pseudo-labels. Our
method is independent of the internal structure of HOI detectors, so it can be
combined with off-the-shelf methods by training merely 10 additional epochs.
With the assistance of our method, multiple methods obtain significant
improvements, and new state-of-the-art results are achieved on two benchmarks.
- Abstract(参考訳): 人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
しかしながら、ほとんどの研究は、相互作用オブジェクトのペアカテゴリの長い性質を無視しながら、全体的な機能をより効率的に学習するためのより良いアーキテクチャの設計を目指している。
本稿では,そのような不均衡分布が仮想画像傾き(vil)に与える影響を緩和する。
まず,ラベルからイメージへの新しいアプローチであるMultiple Steps Image Creation (MUSIC)を提案し,実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
この段階では、特定の特徴を持つプロンプトに基づいて仮想画像を生成し、マルチフィルタプロセスで選択する。
次に,仮想画像と実画像の両方を用いて,教師学習フレームワークを用いてモデルをトレーニングする。
仮想画像の初期ラベルが不正確で不適切なことを考えると、擬似ラベルを構築するための適応マッチング・フィルタ(AMF)モジュールを考案する。
本手法はHOI検出器の内部構造に依存しないため,10個以上のエポックをトレーニングすることで,市販の手法と組み合わせることができる。
提案手法の助成により,複数の手法が大幅に改善され,2つのベンチマークで最新の結果が得られた。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Neural Congealing: Aligning Images to a Joint Semantic Atlas [14.348512536556413]
画像の集合を横断的に意味的に共通するコンテンツを調整するための,ゼロショットの自己教師型フレームワークを提案する。
提案手法は,DINO-ViTの事前学習能力を利用して学習する。
提案手法は,大規模データセットに対する広範囲なトレーニングを必要とする最先端の手法と比較して,好適に動作することを示す。
論文 参考訳(メタデータ) (2023-02-08T09:26:22Z) - Mix-up Self-Supervised Learning for Contrast-agnostic Applications [33.807005669824136]
コントラストに依存しないアプリケーションのための,最初の混合型自己教師型学習フレームワークを提案する。
クロスドメイン・ミックスアップに基づく画像間の低分散に対処し、画像再構成と透明性予測に基づくプレテキストタスクを構築する。
論文 参考訳(メタデータ) (2022-04-02T16:58:36Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - iFAN: Image-Instance Full Alignment Networks for Adaptive Object
Detection [48.83883375118966]
iFANは、イメージレベルとインスタンスレベルの両方で、機能の分散を正確に調整することを目的としている。
ソースのみのベースライン上で10%以上のAPで、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2020-03-09T13:27:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。