論文の概要: Symbiotic Adversarial Learning for Attribute-based Person Search
- arxiv url: http://arxiv.org/abs/2007.09609v2
- Date: Mon, 24 Aug 2020 12:24:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:25:45.039847
- Title: Symbiotic Adversarial Learning for Attribute-based Person Search
- Title(参考訳): 属性に基づく人物探索のための共生学習
- Authors: Yu-Tong Cao, Jingya Wang, Dacheng Tao
- Abstract要約: 本稿では,共生学習の枠組みとして,共生学習の基盤に2つのGANを配置する。
具体的には、2種類の生成的敵ネットワークがトレーニングプロセスを通して協調的に学習する。
- 参考スコア(独自算出の注目度): 86.7506832053208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attribute-based person search is in significant demand for applications where
no detected query images are available, such as identifying a criminal from
witness. However, the task itself is quite challenging because there is a huge
modality gap between images and physical descriptions of attributes. Often,
there may also be a large number of unseen categories (attribute combinations).
The current state-of-the-art methods either focus on learning better
cross-modal embeddings by mining only seen data, or they explicitly use
generative adversarial networks (GANs) to synthesize unseen features. The
former tends to produce poor embeddings due to insufficient data, while the
latter does not preserve intra-class compactness during generation. In this
paper, we present a symbiotic adversarial learning framework, called SAL.Two
GANs sit at the base of the framework in a symbiotic learning scheme: one
synthesizes features of unseen classes/categories, while the other optimizes
the embedding and performs the cross-modal alignment on the common embedding
space .Specifically, two different types of generative adversarial networks
learn collaboratively throughout the training process and the interactions
between the two mutually benefit each other. Extensive evaluations show SAL's
superiority over nine state-of-the-art methods with two challenging pedestrian
benchmarks, PETA and Market-1501. The code is publicly available at:
https://github.com/ycao5602/SAL .
- Abstract(参考訳): 属性に基づく人物検索は、証人から犯罪者を識別するなど、検出されたクエリ画像がないアプリケーションにとって大きな需要である。
しかし、画像と属性の物理的記述の間には大きなモダリティギャップがあるため、タスク自体は非常に困難である。
多くの場合、多くの未発見のカテゴリ(属性の組み合わせ)が存在する。
現在の最先端の手法は、目に見えないデータのみをマイニングすることで、より良いモデアル埋め込みを学習することに焦点を当てているか、あるいは、生成的敵ネットワーク(GAN)を使って、目に見えない特徴を合成している。
前者はデータ不足のため埋め込みが不足する傾向にあり、後者は生成時にクラス内のコンパクトさを保たない。
本稿では,共生学習の枠組みであるsal.two gansを,共生学習の枠組みでフレームワークのベースに配置し,未熟なクラスやカテゴリの特徴を合成し,他方は埋め込みを最適化し,共通埋め込み空間上でのクロスモーダルアライメントを行う。
具体的には,2種類の生成的敵ネットワークは,学習過程を通じて協調的に学習し,相互に利益をもたらす。
広範囲な評価の結果、SALはPETAとMarket-1501という2つの挑戦的な歩行者ベンチマークを持つ9つの最先端手法よりも優れていることが示された。
コードは、https://github.com/ycao5602/SAL で公開されている。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Out-Of-Distribution Detection for Audio-visual Generalized Zero-Shot Learning: A General Framework [0.0]
Generalized Zero-Shot Learning (GZSL) は、目に見えないクラスと見えないクラスの両方を正確に分類する必要がある課題である。
両手法の強みを生かし, 配当外分布検出(OOD)を用いた汎用フレームワークを提案する。
我々は,3つの人気オーディオ・ビジュアル・データセット上でフレームワークをテストし,既存の最先端技術と比較した大幅な改善を観察する。
論文 参考訳(メタデータ) (2024-08-02T14:10:20Z) - Few-Shot Classification of Interactive Activities of Daily Living (InteractADL) [17.15896055218621]
我々は、人間(と物体)間の相互作用を含む複雑なADLを理解するための新しいデータセットとベンチマーク、InteractADLを提案する。
そこで本研究では,クラス名ベクトルを学習することにより,よりセマンティックなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマンティック・セマン
論文 参考訳(メタデータ) (2024-06-03T17:59:55Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - The Overlooked Classifier in Human-Object Interaction Recognition [82.20671129356037]
クラス間の意味的相関を分類ヘッドにエンコードし,重みをHOIの言語埋め込みで初期化する。
我々は,LSE-Sign という新しい損失を,長い尾を持つデータセット上でのマルチラベル学習を強化するために提案する。
我々は,物体検出と人間のポーズを明確なマージンで求める最先端技術よりも優れた,検出不要なHOI分類を可能にする。
論文 参考訳(メタデータ) (2022-03-10T23:35:00Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Generative Multi-Label Zero-Shot Learning [136.17594611722285]
マルチラベルゼロショット学習は、トレーニング中にデータが入手できない複数の見えないカテゴリにイメージを分類する試みである。
我々の研究は、(一般化された)ゼロショット設定におけるマルチラベル機能の問題に最初に取り組みました。
私たちのクロスレベル核融合に基づく生成アプローチは、3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-01-27T18:56:46Z) - Deep Class-Specific Affinity-Guided Convolutional Network for Multimodal
Unpaired Image Segmentation [7.021001169318551]
マルチモーダル医療イメージセグメンテーションは、臨床診断に不可欠な役割を担います。
入力モダリティはしばしば空間的に整列していないため、依然として困難である。
マルチモーダル画像分割のための親和性誘導完全畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-01-05T13:56:51Z) - ReMarNet: Conjoint Relation and Margin Learning for Small-Sample Image
Classification [49.87503122462432]
ReMarNet(Relation-and-Margin Learning Network)と呼ばれるニューラルネットワークを導入する。
本手法は,上記2つの分類機構の双方において優れた性能を発揮する特徴を学習するために,異なるバックボーンの2つのネットワークを組み立てる。
4つの画像データセットを用いた実験により,本手法はラベル付きサンプルの小さな集合から識別的特徴を学習するのに有効であることが示された。
論文 参考訳(メタデータ) (2020-06-27T13:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。