論文の概要: Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
- arxiv url: http://arxiv.org/abs/2303.17490v1
- Date: Thu, 30 Mar 2023 16:01:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:50:23.472283
- Title: Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment
- Title(参考訳): 音声から映像への遅延アライメントによる視覚シーン生成
- Authors: Kim Sung-Bin, Arda Senocak, Hyunwoo Ha, Andrew Owens, Tae-Hyun Oh
- Abstract要約: 我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
- 参考スコア(独自算出の注目度): 22.912401512161132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does audio describe the world around us? In this paper, we propose a
method for generating an image of a scene from sound. Our method addresses the
challenges of dealing with the large gaps that often exist between sight and
sound. We design a model that works by scheduling the learning procedure of
each model component to associate audio-visual modalities despite their
information gaps. The key idea is to enrich the audio features with visual
information by learning to align audio to visual latent space. We translate the
input audio to visual features, then use a pre-trained generator to produce an
image. To further improve the quality of our generated images, we use sound
source localization to select the audio-visual pairs that have strong
cross-modal correlations. We obtain substantially better results on the VEGAS
and VGGSound datasets than prior approaches. We also show that we can control
our model's predictions by applying simple manipulations to the input waveform,
or to the latent space.
- Abstract(参考訳): 音声は私たちの周りの世界をどう表現しますか。
本稿では,音からシーンの画像を生成する手法を提案する。
本手法は,視覚と音の間に生じる大きなギャップに対処するための課題に対処する。
我々は,各モデルコンポーネントの学習手順をスケジューリングして,情報ギャップに拘わらず,視覚的モダリティを関連付けるモデルの設計を行う。
重要なアイデアは、オーディオを視覚的な潜在空間に合わせるように学習することで、視覚情報でオーディオ機能を強化することだ。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
生成された画像の品質をさらに高めるため,音源定位法を用いて,強いクロスモーダル相関を持つ音声と視覚のペアを選択する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
また,入力波形や潜在空間に簡単な操作を適用することで,モデルの予測を制御できることも示す。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Learning Visual Styles from Audio-Visual Associations [21.022027778790978]
本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。
我々のモデルは音に合わせてシーンのテクスチャを操作することを学ぶ。
音声は画像を操作するための直感的な表現であることを示す。
論文 参考訳(メタデータ) (2022-05-10T17:57:07Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。