論文の概要: Speak the Art: A Direct Speech to Image Generation Framework
- arxiv url: http://arxiv.org/abs/2601.00827v1
- Date: Wed, 24 Dec 2025 10:49:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.528795
- Title: Speak the Art: A Direct Speech to Image Generation Framework
- Title(参考訳): Speak the Art: 画像生成フレームワークへのダイレクトスピーチ
- Authors: Mariam Saeed, Manar Amr, Farida Adel, Nada Hassan, Nour Walid, Eman Mohamed, Mohamed Hussein, Marwan Torki,
- Abstract要約: 我々は、音声エンコーディングネットワークと、音声埋め込みを前提としたVQ-拡散ネットワークからなる、textbfSpeak the Art (STA) というフレームワークを導入する。
音声の埋め込みを改善するために、トレーニング中にトレーニング済みの大規模な画像テキストモデルによって音声符号化ネットワークを監督する。
概念実証として、私たちは2つの言語(英語とアラビア語)でフレームワークを訓練しました。
- 参考スコア(独自算出の注目度): 3.372751145910977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct speech-to-image generation has recently shown promising results. However, compared to text-to-image generation, there is still a large gap to enclose. Current approaches use two stages to tackle this task: speech encoding network and image generative adversarial network (GAN). The speech encoding networks in these approaches produce embeddings that do not capture sufficient linguistic information to semantically represent the input speech. GANs suffer from issues such as non-convergence, mode collapse, and diminished gradient, which result in unstable model parameters, limited sample diversity, and ineffective generator learning, respectively. To address these weaknesses, we introduce a framework called \textbf{Speak the Art (STA)} which consists of a speech encoding network and a VQ-Diffusion network conditioned on speech embeddings. To improve speech embeddings, the speech encoding network is supervised by a large pre-trained image-text model during training. Replacing GANs with diffusion leads to more stable training and the generation of diverse images. Additionally, we investigate the feasibility of extending our framework to be multilingual. As a proof of concept, we trained our framework with two languages: English and Arabic. Finally, we show that our results surpass state-of-the-art models by a large margin.
- Abstract(参考訳): 直接音声画像生成は近年,有望な結果を示している。
しかし、テキスト・ツー・イメージ・ジェネレーションに比べれば、囲むことのギャップは大きい。
現在の手法では, 音声符号化ネットワークとGAN ( Image Generative Adversarial Network) という2つの段階がある。
これらの手法における音声符号化ネットワークは、入力された音声を意味的に表現するのに十分な言語情報を捕捉しない埋め込みを生成する。
GANは、非収束、モード崩壊、勾配低下などの問題に悩まされ、不安定なモデルパラメータ、限られたサンプル多様性、そして非効率的なジェネレータ学習をもたらす。
これらの弱点に対処するために、音声符号化ネットワークと、音声埋め込みを前提としたVQ-拡散ネットワークからなる、‘textbf{Speak the Art(STA)’というフレームワークを導入する。
音声の埋め込みを改善するために、トレーニング中にトレーニング済みの大規模な画像テキストモデルによって音声符号化ネットワークを監督する。
拡散によるGANの置き換えは、より安定したトレーニングと多様な画像の生成につながる。
さらに,フレームワークを多言語に拡張する可能性についても検討する。
概念実証として、私たちは2つの言語(英語とアラビア語)でフレームワークを訓練しました。
最後に、この結果が最先端のモデルを大きく上回っていることを示す。
関連論文リスト
- Rhetorical Text-to-Image Generation via Two-layer Diffusion Policy Optimization [6.169979847774362]
Rhet2Pixは、多段階ポリシー最適化問題として修辞的テキスト・画像生成を定式化するフレームワークである。
GPT-4o,Grok-3などのSOTA MLLMと,定性評価と定量的評価の両面において,本モデルの方が優れた成績を示した。
論文 参考訳(メタデータ) (2025-05-28T19:03:37Z) - Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach [3.89476785897726]
AV特徴を組み込んだシーケンス・ツー・シーケンス(seq2seq)音声イン・ペイントモデルを導入,研究する。
提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。
論文 参考訳(メタデータ) (2024-06-02T23:51:43Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Towards Practical and Efficient Image-to-Speech Captioning with
Vision-Language Pre-training and Multi-modal Tokens [87.52235889917223]
我々は、提案したIm2Spの出力を離散化音声単位、すなわち自己教師付き音声モデルの定量化音声特徴として設定した。
ビジョン言語による事前学習戦略により、広く使われている2つのベンチマークデータベース上で、最先端のIm2Spのパフォーマンスを新たに設定した。
論文 参考訳(メタデータ) (2023-09-15T16:48:34Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Read Like Humans: Autonomous, Bidirectional and Iterative Language
Modeling for Scene Text Recognition [80.446770909975]
言語知識はシーンのテキスト認識に非常に有益である。
エンドツーエンドのディープネットワークで言語規則を効果的にモデル化する方法はまだ研究の課題です。
シーンテキスト認識のための自律的双方向反復型ABINetを提案する。
論文 参考訳(メタデータ) (2021-03-11T06:47:45Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - TIME: Text and Image Mutual-Translation Adversarial Networks [55.1298552773457]
テキストと画像相互変換対応ネットワーク(TIME)を提案する。
TIMEは、T2IジェネレータGと画像キャプション識別器Dをジェネレータネットワークフレームワークで学習する。
実験では、TIMEはCUBおよびMS-COCOデータセット上での最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2020-05-27T06:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。