論文の概要: Images that Sound: Composing Images and Sounds on a Single Canvas
- arxiv url: http://arxiv.org/abs/2405.12221v1
- Date: Mon, 20 May 2024 17:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:35:30.375494
- Title: Images that Sound: Composing Images and Sounds on a Single Canvas
- Title(参考訳): キャンバスで画像と音を合成する画像
- Authors: Ziyang Chen, Daniel Geng, Andrew Owens,
- Abstract要約: 自然画像と自然音声とを併用した分光図の合成が可能であることを示す。
我々のアプローチは単純でゼロショットであり、事前訓練されたテキスト・ツー・イメージとテキスト・トゥ・スペクトログラム拡散モデルを利用する。
提案手法は,所望の音声プロンプトと一致したスペクトログラムを生成すると同時に,所望の映像プロンプトの視覚的外観を抽出する。
- 参考スコア(独自算出の注目度): 22.653195012748927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spectrograms are 2D representations of sound that look very different from the images found in our visual world. And natural images, when played as spectrograms, make unnatural sounds. In this paper, we show that it is possible to synthesize spectrograms that simultaneously look like natural images and sound like natural audio. We call these spectrograms images that sound. Our approach is simple and zero-shot, and it leverages pre-trained text-to-image and text-to-spectrogram diffusion models that operate in a shared latent space. During the reverse process, we denoise noisy latents with both the audio and image diffusion models in parallel, resulting in a sample that is likely under both models. Through quantitative evaluations and perceptual studies, we find that our method successfully generates spectrograms that align with a desired audio prompt while also taking the visual appearance of a desired image prompt. Please see our project page for video results: https://ificl.github.io/images-that-sound/
- Abstract(参考訳): スペクトログラム(Spectrogram)は、私たちの視覚の世界にある画像とは大きく異なる音の2次元表現である。
そして自然画像は、スペクトログラムとして再生されると、不自然な音を出す。
本稿では,自然画像と自然音声とを同時に扱うスペクトルを合成することが可能であることを示す。
私たちはこれらの分光図を音の源泉と呼ぶ。
我々のアプローチは単純でゼロショットであり、学習済みのテキスト・ツー・イメージと、共有潜在空間で動作するテキスト・ツー・スペクトログラム拡散モデルを利用する。
逆処理中、ノイズの多い潜伏剤を音声と画像の拡散モデルの両方を並列に発音し、その結果、両方のモデルの下にある可能性が高いサンプルが得られる。
定量的評価と知覚学的研究により,提案手法は,所望の音声プロンプトと一致したスペクトルを生成するとともに,所望の映像プロンプトの視覚的外観を呈示する。
ビデオ結果のプロジェクトページをご覧ください。
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Generating Realistic Images from In-the-wild Sounds [2.531998650341267]
そこで本研究では,Wild 音から画像を生成する新しい手法を提案する。
まず,音声キャプションを用いて音声をテキストに変換する。
第2に,音の豊かな特徴を表現し,その音を可視化するために,音声の注意と文の注意を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:36:40Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Sound Localization from Motion: Jointly Learning Sound Direction and
Camera Rotation [26.867430697990674]
我々は、頭部を回転させると微妙だが幾何的に一貫した変化を起こす画像と音を使って、カメラの回転と音源の定位を推定する。
視覚モデルは、一対の画像からカメラの回転を予測し、音声モデルは、音源の方向を音から予測する。
これらのモデルをトレーニングして、互いに一致する予測を生成します。
本モデルでは, 実シーンと合成シーンの両方で回転を推定し, 最先端の自己監督手法と競合する精度で音源のローカライズを行う。
論文 参考訳(メタデータ) (2023-03-20T17:59:55Z) - Learning Visual Styles from Audio-Visual Associations [21.022027778790978]
本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。
我々のモデルは音に合わせてシーンのテクスチャを操作することを学ぶ。
音声は画像を操作するための直感的な表現であることを示す。
論文 参考訳(メタデータ) (2022-05-10T17:57:07Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis [78.5281048849446]
本稿では,複雑なシーンの新たなビューを合成する手法を提案する。
提案アルゴリズムは,完全接続型(非畳み込み型)深層ネットワークを用いたシーンを表現する。
ボリュームレンダリングは自然に微分可能であるため、表現を最適化するのに必要な唯一の入力は、既知のカメラポーズを持つ画像の集合である。
論文 参考訳(メタデータ) (2020-03-19T17:57:23Z) - Everybody's Talkin': Let Me Talk as You Want [134.65914135774605]
本稿では,写真リアルな映像を合成するために,音声のシーケンスを入力とし,対象の肖像画を編集する手法を提案する。
任意のソースオーディオを任意のビデオ出力に変換することのできる、個人固有のレンダリングネットワークを前提としない。
論文 参考訳(メタデータ) (2020-01-15T09:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。