論文の概要: Domain Adaptive Person Search via GAN-based Scene Synthesis for
Cross-scene Videos
- arxiv url: http://arxiv.org/abs/2308.04322v1
- Date: Tue, 8 Aug 2023 15:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 12:27:37.342491
- Title: Domain Adaptive Person Search via GAN-based Scene Synthesis for
Cross-scene Videos
- Title(参考訳): GANを用いたクロスシーン映像のシーン合成によるドメイン適応型人物探索
- Authors: Huibing Wang, Tianxiang Cui, Mingze Yao, Huijuan Pang, Yushan Du
- Abstract要約: 我々はGAN(Generative Adversarial Networks)を用いて監視ビデオからデータを合成する。
本稿では,人物検索タスクのための高品質な人物画像の合成が可能な,新しいGANベースのシーン合成モデルを提案する。
- 参考スコア(独自算出の注目度): 6.604232520018979
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Person search has recently been a challenging task in the computer vision
domain, which aims to search specific pedestrians from real
cameras.Nevertheless, most surveillance videos comprise only a handful of
images of each pedestrian, which often feature identical backgrounds and
clothing. Hence, it is difficult to learn more discriminative features for
person search in real scenes. To tackle this challenge, we draw on Generative
Adversarial Networks (GAN) to synthesize data from surveillance videos. GAN has
thrived in computer vision problems because it produces high-quality images
efficiently. We merely alter the popular Fast R-CNN model, which is capable of
processing videos and yielding accurate detection outcomes. In order to
appropriately relieve the pressure brought by the two-stage model, we design an
Assisted-Identity Query Module (AIDQ) to provide positive images for the behind
part. Besides, the proposed novel GAN-based Scene Synthesis model that can
synthesize high-quality cross-id person images for person search tasks. In
order to facilitate the feature learning of the GAN-based Scene Synthesis
model, we adopt an online learning strategy that collaboratively learns the
synthesized images and original images. Extensive experiments on two widely
used person search benchmarks, CUHK-SYSU and PRW, have shown that our method
has achieved great performance, and the extensive ablation study further
justifies our GAN-synthetic data can effectively increase the variability of
the datasets and be more realistic.
- Abstract(参考訳): 人探しは近年、実際のカメラから特定の歩行者を検索することを目的としているコンピュータビジョン分野において難しい課題となっている。しかしながら、ほとんどの監視ビデオは、歩行者のイメージのみで構成されており、しばしば同じ背景や衣服を特徴としている。
したがって,実場面での人物検索において,より識別的な特徴を知ることは困難である。
この課題に対処するため、GAN(Generative Adversarial Networks)を用いて監視ビデオからデータを合成する。
GANは高品質な画像を効率よく生成するため、コンピュータビジョンの問題に発展してきた。
ビデオの処理や正確な検出結果の取得が可能な,人気の高いFast R-CNNモデルを変更するだけでよい。
2段階モデルがもたらす圧力を適切に軽減するため,我々はAIDQ (Assisted-Identity Query Module) を設計し,後方部に対して肯定的な画像を提供する。
さらに,人物検索作業のための高品質な人物画像の合成が可能な,新しいGANベースのシーン合成モデルを提案する。
GANに基づくシーン合成モデルの特徴学習を容易にするため,合成画像とオリジナル画像の協調学習を行うオンライン学習戦略を採用した。
CUHK-SYSU と PRW の2つの広く使われている個人探索ベンチマークによる広範囲な実験により,本手法は高い性能を達成し,より広範なアブレーション研究により,GAN合成データがデータセットの変動性を効果的に増加し,より現実的になることを示す。
関連論文リスト
- E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Generative Adversarial Networks for Image Super-Resolution: A Survey [101.39605080291783]
単一画像超解像(SISR)は画像処理の分野で重要な役割を果たしている。
近年のGAN(Generative Adversarial Network)は,小サンプルを用いた低解像度画像に対して優れた結果が得られる。
本稿では,異なる視点からGANの比較研究を行う。
論文 参考訳(メタデータ) (2022-04-28T16:35:04Z) - Detecting High-Quality GAN-Generated Face Images using Neural Networks [23.388645531702597]
本稿では,スペクトル帯域差を利用したGAN生成画像と実画像との区別手法を提案する。
特に,クロスバンド共起行列と空間共起行列を用いて,顔画像のデジタル保存を可能にする。
性能向上は特に重要であり、異なる後処理環境において92%以上を達成することを示す。
論文 参考訳(メタデータ) (2022-03-03T13:53:27Z) - Identity-Aware CycleGAN for Face Photo-Sketch Synthesis and Recognition [61.87842307164351]
まず,画像生成ネットワークの監視に新たな知覚損失を適用したIACycleGAN(Identity-Aware CycleGAN)モデルを提案する。
眼や鼻などの重要な顔領域の合成により多くの注意を払うことで、フォトエッチング合成におけるサイクガンを改善する。
IACycleGANによる画像の合成を反復的に行う合成モデルと認識モデルとの相互最適化手法を開発した。
論文 参考訳(メタデータ) (2021-03-30T01:30:08Z) - Complex Human Action Recognition in Live Videos Using Hybrid FR-DL
Method [1.027974860479791]
入力シーケンス中の代表フレームの自動選択により,前処理フェーズの課題に対処する。
本稿では,バックグラウンドサブトラクションとHOGを用いたハイブリッド手法を提案し,続いて深層ニューラルネットワークと骨格モデリング手法を適用した。
本稿では,このモデルをFR-DL(Feature Reduction & Deep Learning based action recognition method)と呼ぶ。
論文 参考訳(メタデータ) (2020-07-06T15:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。