論文の概要: MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination
- arxiv url: http://arxiv.org/abs/2010.00947v1
- Date: Fri, 2 Oct 2020 12:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:52:29.998210
- Title: MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination
- Title(参考訳): MGD-GAN:多点識別によるテキスト・歩行者生成
- Authors: Shengyu Zhang, Donghui Wang, Zhou Zhao, Siliang Tang, Di Xie, Fei Wu
- Abstract要約: 本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
- 参考スコア(独自算出の注目度): 96.91091607251526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the problem of text-to-pedestrian synthesis,
which has many potential applications in art, design, and video surveillance.
Existing methods for text-to-bird/flower synthesis are still far from solving
this fine-grained image generation problem, due to the complex structure and
heterogeneous appearance that the pedestrians naturally take on. To this end,
we propose the Multi-Grained Discrimination enhanced Generative Adversarial
Network, that capitalizes a human-part-based Discriminator (HPD) and a
self-cross-attended (SCA) global Discriminator in order to capture the
coherence of the complex body structure. A fined-grained word-level attention
mechanism is employed in the HPD module to enforce diversified appearance and
vivid details. In addition, two pedestrian generation metrics, named Pose Score
and Pose Variance, are devised to evaluate the generation quality and
diversity, respectively. We conduct extensive experiments and ablation studies
on the caption-annotated pedestrian dataset, CUHK Person Description Dataset.
The substantial improvement over the various metrics demonstrates the efficacy
of MGD-GAN on the text-to-pedestrian synthesis scenario.
- Abstract(参考訳): 本稿では,アート,デザイン,ビデオサーベイランスにおいて多種多様な応用が期待できるテキスト対ペデストリアン合成の問題について検討する。
従来のテキスト-鳥/花合成法は、歩行者が自然に行う複雑な構造と不均一な外観のため、この細かな画像生成問題を解決するには程遠い。
そこで本研究では,複合体構造のコヒーレンスを捉えるために,人的部分に基づく判別器(hpd)と自己交叉型(sca)大域的判別器(sca)を活かした多面的識別強化生成逆ネットワークを提案する。
hpdモジュールでは、粒度の細かい単語レベルの注意機構を採用し、多様な外観と鮮明な詳細を強制する。
さらに,Pose Score と Pose Variance という2つの歩行者生成指標をそれぞれ,世代品質と多様性を評価するために考案した。
我々は,キャプション付歩行者データセットCUHK Person Description Datasetについて,広範な実験とアブレーション研究を行った。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Controllable Face Synthesis with Semantic Latent Diffusion Models [6.438244172631555]
本稿では,人間の顔生成と編集のための新しい遅延拡散モデルアーキテクチャに基づくSISフレームワークを提案する。
提案システムは,SPADE正規化とクロスアテンションレイヤの両方を用いて形状とスタイル情報をマージし,人間の顔の各意味部分を正確に制御する。
論文 参考訳(メタデータ) (2024-03-19T14:02:13Z) - GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - Syntax-Guided Transformers: Elevating Compositional Generalization and
Grounding in Multimodal Environments [20.70294450587676]
我々は、構成一般化を促進するために、言語の構文構造を利用する。
マルチモーダルグラウンドリング問題における構文情報の利用のメリットを紹介し,評価する。
その結果、マルチモーダルグラウンドリングとパラメータ効率のモデリングにおいて、最先端の技術を推し進めることができた。
論文 参考訳(メタデータ) (2023-11-07T21:59:16Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrase Detection: Human vs. Machine Content [3.8768839735240737]
人間が書いたパラフレーズは、難易度、多様性、類似性の点で機械生成のパラフレーズを超えている。
トランスフォーマーは、意味的に多様なコーパスに優れたTF-IDFを持つデータセット間で最も効果的な方法として登場した。
論文 参考訳(メタデータ) (2023-03-24T13:25:46Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Multi-Attributed and Structured Text-to-Face Synthesis [1.3381749415517017]
Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
論文 参考訳(メタデータ) (2021-08-25T07:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。