論文の概要: Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for
Speech-to-Image Generation
- arxiv url: http://arxiv.org/abs/2305.10126v1
- Date: Wed, 17 May 2023 11:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 16:28:00.184844
- Title: Fusion-S2iGan: An Efficient and Effective Single-Stage Framework for
Speech-to-Image Generation
- Title(参考訳): Fusion-S2iGan: 音声画像生成のための効率的かつ効果的な単一ステージフレームワーク
- Authors: Zhenxing Zhang and Lambert Schomaker
- Abstract要約: 音声から画像への変換の目的は、音声信号から直接写実的な画像を生成することである。
本稿では,Fusion-S2iGanと呼ばれる単一段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.26410341981427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of a speech-to-image transform is to produce a photo-realistic
picture directly from a speech signal. Recently, various studies have focused
on this task and have achieved promising performance. However, current
speech-to-image approaches are based on a stacked modular framework that
suffers from three vital issues: 1) Training separate networks is
time-consuming as well as inefficient and the convergence of the final
generative model strongly depends on the previous generators; 2) The quality of
precursor images is ignored by this architecture; 3) Multiple discriminator
networks are required to be trained. To this end, we propose an efficient and
effective single-stage framework called Fusion-S2iGan to yield perceptually
plausible and semantically consistent image samples on the basis of given
spoken descriptions. Fusion-S2iGan introduces a visual+speech fusion module
(VSFM), constructed with a pixel-attention module (PAM), a speech-modulation
module (SMM) and a weighted-fusion module (WFM), to inject the speech embedding
from a speech encoder into the generator while improving the quality of
synthesized pictures. Fusion-S2iGan spreads the bimodal information over all
layers of the generator network to reinforce the visual feature maps at various
hierarchical levels in the architecture. We conduct a series of experiments on
four benchmark data sets, i.e., CUB birds, Oxford-102, Flickr8k and
Places-subset. The experimental results demonstrate the superiority of the
presented Fusion-S2iGan compared to the state-of-the-art models with a
multi-stage architecture and a performance level that is close to traditional
text-to-image approaches.
- Abstract(参考訳): 音声から画像への変換の目的は、音声信号から直接写実画像を生成することである。
近年,様々な研究がこの課題に焦点を合わせ,有望な成果を上げている。
しかし、現在の音声から画像へのアプローチは、以下の3つの重大な問題に悩まされる、積み重ねられたモジュラーフレームワークに基づいている。
1) 個別のネットワークの訓練には時間を要するだけでなく、非効率であり、最終生成モデルの収束は、以前のジェネレータに強く依存する。
2) 前駆体画像の品質は,このアーキテクチャにより無視される。
3) 複数の識別ネットワークを訓練する必要がある。
そこで本研究では,所定の音声記述に基づいて知覚的・意味的に一貫性のある画像サンプルを生成するために,fusion-s2iganと呼ばれる効率的かつ効果的な一段階フレームワークを提案する。
Fusion-S2iGanは、音声エンコーダからの音声埋め込みをジェネレータに注入し、合成画像の品質を改善しつつ、画素アテンションモジュール(PAM)、音声変調モジュール(SMM)、重み付き融合モジュール(WFM)で構築されたビジュアル+音声融合モジュール(VSFM)を導入する。
Fusion-S2iGanは、ジェネレータネットワークの全層にバイモーダル情報を分散し、アーキテクチャの様々な階層レベルで視覚特徴マップを強化する。
我々は、cub birds、oxford-102、flickr8k、places-subsetの4つのベンチマークデータセットで一連の実験を行っている。
実験結果は,多段階アーキテクチャと従来のテキストから画像へのアプローチに近いパフォーマンスレベルを持つ最先端モデルと比較して,fusion-s2iganが優れていることを示した。
関連論文リスト
- DiM-Gestor: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 [6.6954598568836925]
DiM-GestorはMamba-2アーキテクチャを利用したエンドツーエンドの生成モデルである。
Mamba-2上にファジィ特徴抽出器と音声・ジェスチャーマッピングモジュールを構築する。
提案手法は競合する結果をもたらし,メモリ使用量を約2.4倍に削減し,推論速度を2~4倍に向上させる。
論文 参考訳(メタデータ) (2024-11-23T08:02:03Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Efficient and Model-Based Infrared and Visible Image Fusion Via
Algorithm Unrolling [24.83209572888164]
赤外線および可視画像融合(IVIF)は、赤外線画像からの熱放射情報を保持する画像と、可視画像からテクスチャの詳細を取得することを期待している。
従来のCNNベースのIVIFモデルの欠点を克服するために,モデルベース畳み込みニューラルネットワーク(CNN)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-12T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。