論文の概要: MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination
- arxiv url: http://arxiv.org/abs/2010.00947v1
- Date: Fri, 2 Oct 2020 12:24:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 01:52:29.998210
- Title: MGD-GAN: Text-to-Pedestrian generation through Multi-Grained
Discrimination
- Title(参考訳): MGD-GAN:多点識別によるテキスト・歩行者生成
- Authors: Shengyu Zhang, Donghui Wang, Zhou Zhao, Siliang Tang, Di Xie, Fei Wu
- Abstract要約: 本稿では, 人的部分に基づく識別器と自己対応型識別器を併用した多点識別拡張生成適応ネットワークを提案する。
HPDモジュールには、多彩な外観と鮮明な詳細を強制するために、きめ細かい単語レベルの注意機構が採用されている。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
- 参考スコア(独自算出の注目度): 96.91091607251526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the problem of text-to-pedestrian synthesis,
which has many potential applications in art, design, and video surveillance.
Existing methods for text-to-bird/flower synthesis are still far from solving
this fine-grained image generation problem, due to the complex structure and
heterogeneous appearance that the pedestrians naturally take on. To this end,
we propose the Multi-Grained Discrimination enhanced Generative Adversarial
Network, that capitalizes a human-part-based Discriminator (HPD) and a
self-cross-attended (SCA) global Discriminator in order to capture the
coherence of the complex body structure. A fined-grained word-level attention
mechanism is employed in the HPD module to enforce diversified appearance and
vivid details. In addition, two pedestrian generation metrics, named Pose Score
and Pose Variance, are devised to evaluate the generation quality and
diversity, respectively. We conduct extensive experiments and ablation studies
on the caption-annotated pedestrian dataset, CUHK Person Description Dataset.
The substantial improvement over the various metrics demonstrates the efficacy
of MGD-GAN on the text-to-pedestrian synthesis scenario.
- Abstract(参考訳): 本稿では,アート,デザイン,ビデオサーベイランスにおいて多種多様な応用が期待できるテキスト対ペデストリアン合成の問題について検討する。
従来のテキスト-鳥/花合成法は、歩行者が自然に行う複雑な構造と不均一な外観のため、この細かな画像生成問題を解決するには程遠い。
そこで本研究では,複合体構造のコヒーレンスを捉えるために,人的部分に基づく判別器(hpd)と自己交叉型(sca)大域的判別器(sca)を活かした多面的識別強化生成逆ネットワークを提案する。
hpdモジュールでは、粒度の細かい単語レベルの注意機構を採用し、多様な外観と鮮明な詳細を強制する。
さらに,Pose Score と Pose Variance という2つの歩行者生成指標をそれぞれ,世代品質と多様性を評価するために考案した。
我々は,キャプション付歩行者データセットCUHK Person Description Datasetについて,広範な実験とアブレーション研究を行った。
様々な測定値に対する大幅な改善は、MGD-GANがテキストからペデストリアン合成シナリオに有効であることを示す。
関連論文リスト
- GUESS:GradUally Enriching SyntheSis for Text-Driven Human Motion
Generation [23.435588151215594]
そこで本研究では,テキスト駆動型人体動作合成のためのケースケード拡散に基づく新しい生成フレームワークを提案する。
このフレームワークはGradUally Enriching SyntheSis(GUESS)という戦略を略語として利用している。
GUESSは、精度、現実性、多様性において、既存の最先端手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2024-01-04T08:48:21Z) - Knowledge Pursuit Prompting for Zero-Shot Multimodal Synthesis [6.215536001787723]
意味的詳細が不十分な不正確なプロンプトによる幻覚と不信な合成は、マルチモーダル生成モデルで広く観察されている。
我々は、外部知識を反復的に組み込んだゼロショットフレームワークであるKPP(Knowledge Pursuit Prompting)を提案する。
KPPは多様な視覚領域にまたがって忠実でセマンティックにリッチなコンテンツを生成することができ、マルチモーダル生成モデルを改善するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2023-11-29T18:51:46Z) - Syntax-Guided Transformers: Elevating Compositional Generalization and
Grounding in Multimodal Environments [20.70294450587676]
我々は、構成一般化を促進するために、言語の構文構造を利用する。
マルチモーダルグラウンドリング問題における構文情報の利用のメリットを紹介し,評価する。
その結果、マルチモーダルグラウンドリングとパラメータ効率のモデリングにおいて、最先端の技術を推し進めることができた。
論文 参考訳(メタデータ) (2023-11-07T21:59:16Z) - Improving Diversity in Zero-Shot GAN Adaptation with Semantic Variations [61.132408427908175]
0ショットのGAN適応は、よく訓練されたジェネレータを再利用して、目に見えないターゲットドメインの画像を合成することを目的としている。
実際の画像の代わりに1つの代表的テキスト機能しか持たないため、合成された画像は徐々に多様性を損なう。
そこで本研究では,CLIP空間における対象テキストの意味的変化を見つけるための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-21T08:12:28Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Paraphrase Detection: Human vs. Machine Content [3.8768839735240737]
人間が書いたパラフレーズは、難易度、多様性、類似性の点で機械生成のパラフレーズを超えている。
トランスフォーマーは、意味的に多様なコーパスに優れたTF-IDFを持つデータセット間で最も効果的な方法として登場した。
論文 参考訳(メタデータ) (2023-03-24T13:25:46Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Multi-Attributed and Structured Text-to-Face Synthesis [1.3381749415517017]
Generative Adrial Networks (GAN) は、顔生成、写真編集、画像超解像などの多くの応用を通じて、画像合成に革命をもたらした。
本論文は、各テキスト記述における顔属性の増加が、より多様で現実的な顔を生成するのに役立つことを実証的に証明する。
論文 参考訳(メタデータ) (2021-08-25T07:52:21Z) - Improving Generation and Evaluation of Visual Stories via Semantic
Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。
それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。
従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文 参考訳(メタデータ) (2021-05-20T20:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。