論文の概要: Temporally Aligned Audio for Video with Autoregression
- arxiv url: http://arxiv.org/abs/2409.13689v1
- Date: Fri, 20 Sep 2024 17:59:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 05:57:35.286358
- Title: Temporally Aligned Audio for Video with Autoregression
- Title(参考訳): 自己回帰映像の時間的アライメント
- Authors: Ilpo Viertola, Vladimir Iashin, Esa Rahtu,
- Abstract要約: V-AURAはビデオ・オーディオ生成において時間的アライメントと関連性を達成する最初の自己回帰モデルである。
VisualSoundは、高いオーディオと視覚の関連性を持つベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 17.019400481122872
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce V-AURA, the first autoregressive model to achieve high temporal alignment and relevance in video-to-audio generation. V-AURA uses a high-framerate visual feature extractor and a cross-modal audio-visual feature fusion strategy to capture fine-grained visual motion events and ensure precise temporal alignment. Additionally, we propose VisualSound, a benchmark dataset with high audio-visual relevance. VisualSound is based on VGGSound, a video dataset consisting of in-the-wild samples extracted from YouTube. During the curation, we remove samples where auditory events are not aligned with the visual ones. V-AURA outperforms current state-of-the-art models in temporal alignment and semantic relevance while maintaining comparable audio quality. Code, samples, VisualSound and models are available at https://v-aura.notion.site
- Abstract(参考訳): V-AURAは,ビデオ音声生成における時間的アライメントと関連性を実現するための,最初の自己回帰モデルである。
V-AURAは、高フレームの視覚特徴抽出器と、細粒度な視覚イベントを捕捉し、正確な時間的アライメントを確保するために、モーダルなオーディオ-視覚特徴融合戦略を使用する。
さらに,高音声・視覚関連性を有するベンチマークデータセットであるVisualSoundを提案する。
VisualSoundはVGGSoundをベースとしている。
キュレーション中、聴覚イベントが視覚イベントと一致していないサンプルを除去する。
V-AURAは、時間的アライメントと意味的関連性において、同等のオーディオ品質を維持しながら、現在の最先端モデルより優れている。
コード、サンプル、VisualSoundおよびモデルはhttps://v-aura.notion.siteで入手できる。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Unveiling Visual Biases in Audio-Visual Localization Benchmarks [52.76903182540441]
既存のベンチマークで大きな問題を特定します。
音響オブジェクトは、視覚的バイアス(visual bias)と呼ぶ視覚的手がかりのみに基づいて、容易に認識される。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-08-25T04:56:08Z) - Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound [6.638504164134713]
音声合成はマルチメディア生産に不可欠であり、音声と映像を時間的・意味的に同期させることによりユーザエクスペリエンスを向上させる。
ビデオから音声生成によるこの労働集約プロセスの自動化に関する最近の研究は、重大な課題に直面している。
本稿では,Root Mean Square (RMS) を用いた音声合成システムであるVideo-Foleyを提案する。
論文 参考訳(メタデータ) (2024-08-21T18:06:15Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion
Models [12.898486592791604]
Diff-Foley, a synchronized Video-to-Audio synthesis method with a Latent diffusion model (LDM)について述べる。
我々はDiff-Foleyが現在の大規模V2Aデータセット上で最先端のV2A性能を達成することを示す。
論文 参考訳(メタデータ) (2023-06-29T12:39:58Z) - V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。
ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文 参考訳(メタデータ) (2023-05-11T06:26:41Z) - Audio-Visual Contrastive Learning with Temporal Self-Supervision [84.11385346896412]
人間の監督なしにRGBフレームと付随するオーディオの両方の表現を学習するビデオのための自己教師付き学習手法を提案する。
ビデオに固有の時間的・聴覚的次元を活用するために,本手法は時間的自己監督を音声視覚設定に拡張する。
論文 参考訳(メタデータ) (2023-02-15T15:00:55Z) - Dual-path Attention is All You Need for Audio-Visual Speech Extraction [34.7260610874298]
音声視覚機能を融合する新しい方法を提案する。
提案アルゴリズムは,視覚的特徴を付加的な特徴ストリームとして組み込む。
その結果,他の時間領域ベース音声-視覚融合モデルと比較して優れた結果が得られた。
論文 参考訳(メタデータ) (2022-07-09T07:27:46Z) - AVATAR: Unconstrained Audiovisual Speech Recognition [75.17253531162608]
本稿では,ASR TrAnsformeR (AVATAR) を用いて,スペクトルとフルフレームRGBからエンドツーエンドにトレーニングした新しいシーケンス・ツー・シーケンスASR TrAnsformeRを提案する。
本稿では,ハウ2 AV-ASR ベンチマークにおける視覚的モダリティの寄与を,特にシミュレートノイズの存在下で実証する。
また、我々はAV-ASRのための新しい実世界テストベッドVisSpeechを作成し、挑戦的な音声条件下での視覚的モダリティの寄与を実証した。
論文 参考訳(メタデータ) (2022-06-15T17:33:19Z) - Localizing Visual Sounds the Hard Way [149.84890978170174]
音を発する物体を含む画像であっても、難しい画像断片を明示的に識別するようにネットワークを訓練します。
提案アルゴリズムは,Flickr SoundNetデータセット上での最先端性能を実現する。
最近導入されたVGG-Soundデータセットの新しいアノテーションセットであるVGG-Sound Source(VGG-SS)ベンチマークを紹介します。
論文 参考訳(メタデータ) (2021-04-06T17:38:18Z) - Generating Visually Aligned Sound from Videos [83.89485254543888]
自然ビデオから音を生成するタスクに焦点をあてる。
音は時間的にも内容的にも視覚信号と一致しているべきです。
カメラの外部で発生する音は、ビデオコンテンツから推測することはできない。
論文 参考訳(メタデータ) (2020-07-14T07:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。