論文の概要: Robust Sound-Guided Image Manipulation
- arxiv url: http://arxiv.org/abs/2208.14114v3
- Date: Tue, 25 Apr 2023 01:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 03:54:30.198589
- Title: Robust Sound-Guided Image Manipulation
- Title(参考訳): ロバスト音響誘導画像マニピュレーション
- Authors: Seung Hyun Lee, Gyeongrok Oh, Wonmin Byeon, Sang Ho Yoon, Jinkyu Kim,
Sangpil Kim
- Abstract要約: 本稿では,まず,音声を用いた画像-テキスト共同埋め込み空間を拡張した新しい手法を提案する。
実験により,我々の音声誘導画像操作手法は,意味的かつ視覚的により妥当な操作結果をもたらすことが示された。
- 参考スコア(独自算出の注目度): 17.672008998994816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent successes suggest that an image can be manipulated by a text prompt,
e.g., a landscape scene on a sunny day is manipulated into the same scene on a
rainy day driven by a text input "raining". These approaches often utilize a
StyleCLIP-based image generator, which leverages multi-modal (text and image)
embedding space. However, we observe that such text inputs are often
bottlenecked in providing and synthesizing rich semantic cues, e.g.,
differentiating heavy rain from rain with thunderstorms. To address this issue,
we advocate leveraging an additional modality, sound, which has notable
advantages in image manipulation as it can convey more diverse semantic cues
(vivid emotions or dynamic expressions of the natural world) than texts. In
this paper, we propose a novel approach that first extends the image-text joint
embedding space with sound and applies a direct latent optimization method to
manipulate a given image based on audio input, e.g., the sound of rain. Our
extensive experiments show that our sound-guided image manipulation approach
produces semantically and visually more plausible manipulation results than the
state-of-the-art text and sound-guided image manipulation methods, which are
further confirmed by our human evaluations. Our downstream task evaluations
also show that our learned image-text-sound joint embedding space effectively
encodes sound inputs.
- Abstract(参考訳): 最近の成功は、例えば、晴れた日に風景シーンが、テキスト入力「レイニング」によって駆動される雨の日に同じシーンに操作されるように、テキストプロンプトで画像を操作できることを示唆している。
これらのアプローチはしばしば、マルチモーダル(テキストとイメージ)埋め込み空間を利用するStyleCLIPベースのイメージジェネレータを利用する。
しかし,このようなテキスト入力は,降雨時の豪雨と雷雨の区別など,リッチなセマンティック・キューの提供と合成においてしばしばボトルネックとなる。
この問題に対処するために、テキストよりも多様な意味的手がかり(生き生きとした感情や自然界のダイナミックな表現)を伝達できるため、画像操作において顕著な優位性を持つ追加のモダリティ、音の活用を提唱する。
本稿では,まず画像とテキストの組込み空間を音で拡張し,例えば雨音など,音声入力に基づいて画像を操作するための直接潜在最適化手法を提案する。
当社の音響誘導画像操作手法は,最先端のテキストや音声誘導画像操作手法よりも,意味的かつ視覚的に正確な操作結果が得られることを示す。
ダウンストリームタスク評価では,学習した画像-テキスト-音声統合埋め込み空間が音響入力を効果的に符号化することを示す。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Robot Synesthesia: A Sound and Emotion Guided AI Painter [13.2441524021269]
本稿では,ロボット合成と呼ばれるロボット塗装プロセスの指導に音声と音声を用いたアプローチを提案する。
一般音に対しては,模擬絵画を符号化し,同じ潜在空間に入力音を符号化する。音声では,音声をその書き起こしテキストと音声のトーンに分離する。テキストを用いて内容を制御する一方で,そのトーンからの感情を推定し,絵のムードを導出する。
論文 参考訳(メタデータ) (2023-02-09T18:53:44Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary
Instructions [66.82547612097194]
そこで我々は,オープンドメイン画像操作のための新しいアルゴリズムOpen-Editを提案する。
本手法は、一般的な画像キャプチャーデータセット上で事前訓練された、統合されたビジュアル・セマンティックな埋め込み空間を利用する。
オープンドメイン画像の様々なシナリオに対して,オープンボキャブラリ色,テクスチャ,高レベル属性の操作に有望な結果を示す。
論文 参考訳(メタデータ) (2020-08-04T14:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。