論文の概要: S2IGAN: Speech-to-Image Generation via Adversarial Learning
- arxiv url: http://arxiv.org/abs/2005.06968v2
- Date: Tue, 15 Sep 2020 08:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-03 04:12:34.154235
- Title: S2IGAN: Speech-to-Image Generation via Adversarial Learning
- Title(参考訳): S2IGAN: 逆学習による音声対画像生成
- Authors: Xinsheng Wang, Tingting Qiao, Jihua Zhu, Alan Hanjalic, Odette
Scharenborg
- Abstract要約: テキスト情報を使わずに、音声記述を写実画像に変換するS2IGフレームワークが提案されている。
提案されたS2IGフレームワークは、音声埋め込みネットワーク(SEN)と関係教師付き密集型生成モデル(RDG)から構成される。
- 参考スコア(独自算出の注目度): 35.248615732376514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An estimated half of the world's languages do not have a written form, making
it impossible for these languages to benefit from any existing text-based
technologies. In this paper, a speech-to-image generation (S2IG) framework is
proposed which translates speech descriptions to photo-realistic images without
using any text information, thus allowing unwritten languages to potentially
benefit from this technology. The proposed S2IG framework, named S2IGAN,
consists of a speech embedding network (SEN) and a relation-supervised
densely-stacked generative model (RDG). SEN learns the speech embedding with
the supervision of the corresponding visual information. Conditioned on the
speech embedding produced by SEN, the proposed RDG synthesizes images that are
semantically consistent with the corresponding speech descriptions. Extensive
experiments on two public benchmark datasets CUB and Oxford-102 demonstrate the
effectiveness of the proposed S2IGAN on synthesizing high-quality and
semantically-consistent images from the speech signal, yielding a good
performance and a solid baseline for the S2IG task.
- Abstract(参考訳): 世界の言語の半分は書式を持っておらず、これらの言語が既存のテキストベースの技術から恩恵を受けることは不可能である。
本稿では,テキスト情報を用いずに音声記述をフォトリアリスティックな画像に変換するs2ig( speech-to-image generation)フレームワークを提案する。
提案するS2IGフレームワークは、S2IGANと呼ばれ、音声埋め込みネットワーク(SEN)と、関係教師付き密集型生成モデル(RDG)から構成される。
センは対応する視覚情報の監督の下で音声埋め込みを学ぶ。
提案したRDGは,SENによる音声埋め込みに基づいて,対応する音声記述と意味的に一致した画像を合成する。
CUBとOxford-102の2つの公開ベンチマークデータセットに対する大規模な実験は、提案したS2IGANが音声信号から高品質でセマンティックに一貫性のある画像を合成し、良好な性能とS2IGタスクのベースラインが得られることを示す。
関連論文リスト
- Text Image Generation for Low-Resource Languages with Dual Translation Learning [0.0]
本研究では,高リソース言語からの実際のテキスト画像のスタイルをエミュレートすることで,低リソース言語でテキスト画像を生成する手法を提案する。
このモデルのトレーニングには、2つの翻訳タスクが含まれており、平易なテキストイメージを合成または実際のテキストイメージに変換する。
生成したテキスト画像の精度と多様性を高めるために,2つのガイダンス手法を導入する。
論文 参考訳(メタデータ) (2024-09-26T11:23:59Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Vision-Language Matching for Text-to-Image Synthesis via Generative
Adversarial Networks [13.80433764370972]
テキスト・ツー・イメージ合成は、特定のテキスト記述からフォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
本稿では,VLMGAN* というテキスト・画像合成のための新しい視覚言語マッチング手法を提案する。
提案手法は他のテキスト・画像合成法にも適用可能である。
論文 参考訳(メタデータ) (2022-08-20T03:34:04Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Text-Free Image-to-Speech Synthesis Using Learned Segmental Units [24.657722909094662]
画像の自然な音声キャプションを直接流用する最初のモデルを提案する。
我々は、画像キャプションモジュールと音声合成モジュールを、独立したサブワード音声ユニットのセットで接続する。
Flickr8k音声キャプションデータセットと、人気のMSCOCOデータセットのために収集された音声キャプションの新しいコーパスについて実験を行います。
論文 参考訳(メタデータ) (2020-12-31T05:28:38Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。