論文の概要: Sound-Guided Semantic Image Manipulation
- arxiv url: http://arxiv.org/abs/2112.00007v1
- Date: Tue, 30 Nov 2021 13:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-02 14:39:50.190099
- Title: Sound-Guided Semantic Image Manipulation
- Title(参考訳): 音響誘導セマンティック画像マニピュレーション
- Authors: Seung Hyun Lee, Wonseok Roh, Wonmin Byeon, Sang Ho Yoon, Chan Young
Kim, Jinkyu Kim, Sangpil Kim
- Abstract要約: 本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 19.01823634838526
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The recent success of the generative model shows that leveraging the
multi-modal embedding space can manipulate an image using text information.
However, manipulating an image with other sources rather than text, such as
sound, is not easy due to the dynamic characteristics of the sources.
Especially, sound can convey vivid emotions and dynamic expressions of the real
world. Here, we propose a framework that directly encodes sound into the
multi-modal (image-text) embedding space and manipulates an image from the
space. Our audio encoder is trained to produce a latent representation from an
audio input, which is forced to be aligned with image and text representations
in the multi-modal embedding space. We use a direct latent optimization method
based on aligned embeddings for sound-guided image manipulation. We also show
that our method can mix text and audio modalities, which enrich the variety of
the image modification. We verify the effectiveness of our sound-guided image
manipulation quantitatively and qualitatively. We also show that our method can
mix different modalities, i.e., text and audio, which enrich the variety of the
image modification. The experiments on zero-shot audio classification and
semantic-level image classification show that our proposed model outperforms
other text and sound-guided state-of-the-art methods.
- Abstract(参考訳): 最近の生成モデルの成功は、マルチモーダル埋め込み空間を活用することで、テキスト情報を使って画像を操作できることを示している。
しかし, 音源のダイナミックな特性から, 音声などのテキストではなく, 画像を操作することは容易ではない。
特に、音は実世界の鮮明な感情と動的表現を伝達することができる。
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間に符号化し,空間から画像を操作するフレームワークを提案する。
オーディオエンコーダは音声入力から潜在表現を生成するよう訓練されており、マルチモーダル埋め込み空間における画像やテキスト表現と整合せざるを得ない。
音響誘導画像操作のためのアライメント埋め込みに基づく直接潜時最適化手法を用いる。
また,本手法はテキストとオーディオのモダリティを混合し,画像修正の多様性を向上することを示す。
音響誘導画像操作の有効性を定量的に定性的に検証する。
また,本手法は,様々なモダリティ,すなわちテキストと音声を混在させることで,画像修正の多様性を増すことを示す。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
関連論文リスト
- An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment [6.977241620071544]
マルチモーダルな大言語モデルは画像キャプションの進歩を加速させた。
本研究では,この機能を音声キャプションに再利用できることを示す。
本稿では,視覚的モダリティのギャップを埋めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-08T12:52:48Z) - SonicDiffusion: Audio-Driven Image Generation and Editing with Pretrained Diffusion Models [21.669044026456557]
本稿では,大規模画像拡散モデルにおける音声条件設定を実現する手法を提案する。
音声条件付き画像生成に加えて,拡散に基づく編集手法との共役にも利用することができる。
論文 参考訳(メタデータ) (2024-05-01T21:43:57Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Can CLIP Help Sound Source Localization? [19.370071553914954]
音声信号をCLIPのテキストエンコーダと互換性のあるトークンに変換するフレームワークを提案する。
これらの埋め込みを直接利用することにより,提案手法は提供音声のための音声グラウンドマスクを生成する。
この結果から,事前学習した画像テキストモデルを用いることで,より完全でコンパクトな音像定位写像を生成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-07T15:26:57Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - AudioToken: Adaptation of Text-Conditioned Diffusion Models for
Audio-to-Image Generation [89.63430567887718]
そこで本研究では,テキスト・ツー・イメージ・ジェネレーションのために訓練された潜時拡散モデルを用いて,音声記録に条件付き画像を生成する手法を提案する。
提案手法は,事前学習された音声符号化モデルを用いて,音声とテキストの表現の適応層とみなすことができる新しいトークンに音声を符号化する。
論文 参考訳(メタデータ) (2023-05-22T14:02:44Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Robust Sound-Guided Image Manipulation [17.672008998994816]
本稿では,まず,音声を用いた画像-テキスト共同埋め込み空間を拡張した新しい手法を提案する。
実験により,我々の音声誘導画像操作手法は,意味的かつ視覚的により妥当な操作結果をもたらすことが示された。
論文 参考訳(メタデータ) (2022-08-30T09:59:40Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。