論文の概要: Learning Visual Styles from Audio-Visual Associations
- arxiv url: http://arxiv.org/abs/2205.05072v1
- Date: Tue, 10 May 2022 17:57:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 21:38:30.769058
- Title: Learning Visual Styles from Audio-Visual Associations
- Title(参考訳): 視聴覚関連から視覚スタイルを学ぶ
- Authors: Tingle Li, Yichen Liu, Andrew Owens, Hang Zhao
- Abstract要約: 本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。
我々のモデルは音に合わせてシーンのテクスチャを操作することを学ぶ。
音声は画像を操作するための直感的な表現であることを示す。
- 参考スコア(独自算出の注目度): 21.022027778790978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From the patter of rain to the crunch of snow, the sounds we hear often
convey the visual textures that appear within a scene. In this paper, we
present a method for learning visual styles from unlabeled audio-visual data.
Our model learns to manipulate the texture of a scene to match a sound, a
problem we term audio-driven image stylization. Given a dataset of paired
audio-visual data, we learn to modify input images such that, after
manipulation, they are more likely to co-occur with a given input sound. In
quantitative and qualitative evaluations, our sound-based model outperforms
label-based approaches. We also show that audio can be an intuitive
representation for manipulating images, as adjusting a sound's volume or mixing
two sounds together results in predictable changes to visual style. Project
webpage: https://tinglok.netlify.app/files/avstyle
- Abstract(参考訳): 雨の光から雪のくぼみまで、私たちが聞く音はシーンの中に現れる視覚的なテクスチャを伝えることが多い。
本稿では,未ラベル音声視覚データから視覚スタイルを学習する手法を提案する。
私たちのモデルは、音に合わせてシーンのテクスチャを操作することを学びます。
対の視聴覚データのデータセットを考えると、操作後、与えられた入力音と共起する可能性が高まるように、入力画像を変更することを学ぶ。
定量的・質的評価では,音素モデルの方がラベルに基づくアプローチよりも優れている。
また,音量調整や2つの音の混合など,映像操作のための直感的な表現が可能となり,予測可能な映像スタイルの変化が得られることを示す。
プロジェクトWebページ: https://tinglok.netlify.app/files/avstyle
関連論文リスト
- AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - Generating Realistic Images from In-the-wild Sounds [2.531998650341267]
そこで本研究では,Wild 音から画像を生成する新しい手法を提案する。
まず,音声キャプションを用いて音声をテキストに変換する。
第2に,音の豊かな特徴を表現し,その音を可視化するために,音声の注意と文の注意を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:36:40Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Sound to Visual Scene Generation by Audio-to-Visual Latent Alignment [22.912401512161132]
我々は、各モデルコンポーネントの学習手順をスケジューリングして、オーディオ・視覚的モダリティを関連付けるモデルの設計を行う。
入力音声を視覚的特徴に変換し,事前学習した生成器を用いて画像を生成する。
VEGAS と VGGSound のデータセットは,従来の手法よりもかなりよい結果が得られる。
論文 参考訳(メタデータ) (2023-03-30T16:01:50Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - Estimating Visual Information From Audio Through Manifold Learning [14.113590443352495]
音声信号のみを用いてシーンの視覚情報を抽出する新しい枠組みを提案する。
私たちのフレームワークはマニフォールド学習に基づいており、2つのステップから構成されています。
提案手法は,公開されている音声/視覚データセットを用いて,音声から有意義な画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-08-03T20:47:11Z) - Sound-Guided Semantic Image Manipulation [19.01823634838526]
本稿では,音を直接マルチモーダル(画像テキスト)埋め込み空間にエンコードし,空間から画像を操作するフレームワークを提案する。
提案手法は,様々なモダリティ,すなわちテキストとオーディオを混合し,画像修正の多様性を高める。
ゼロショット音声分類とセマンティックレベルの画像分類の実験により,提案手法が他のテキストや音声誘導手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-11-30T13:30:12Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。