論文の概要: Learning to Highlight Audio by Watching Movies
- arxiv url: http://arxiv.org/abs/2505.12154v1
- Date: Sat, 17 May 2025 22:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.066558
- Title: Learning to Highlight Audio by Watching Movies
- Title(参考訳): 映画視聴によるハイライトオーディオの学習
- Authors: Chao Huang, Ruohan Gao, J. M. F. Tsang, Jan Kurcius, Cagdas Bilen, Chenliang Xu, Anurag Kumar, Sanjeel Parekh,
- Abstract要約: 本稿では,映像が案内する適切なハイライト効果を実現するために音声を変換することを目的とした,視覚誘導型音声強調機能を提案する。
私たちのモデルをトレーニングするために、映画に見られる巧妙なオーディオとビデオ制作を活用する、泥だらけのミックスデータセットも導入しました。
定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
- 参考スコア(独自算出の注目度): 37.9846964966927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen a significant increase in video content creation and consumption. Crafting engaging content requires the careful curation of both visual and audio elements. While visual cue curation, through techniques like optimal viewpoint selection or post-editing, has been central to media production, its natural counterpart, audio, has not undergone equivalent advancements. This often results in a disconnect between visual and acoustic saliency. To bridge this gap, we introduce a novel task: visually-guided acoustic highlighting, which aims to transform audio to deliver appropriate highlighting effects guided by the accompanying video, ultimately creating a more harmonious audio-visual experience. We propose a flexible, transformer-based multimodal framework to solve this task. To train our model, we also introduce a new dataset -- the muddy mix dataset, leveraging the meticulous audio and video crafting found in movies, which provides a form of free supervision. We develop a pseudo-data generation process to simulate poorly mixed audio, mimicking real-world scenarios through a three-step process -- separation, adjustment, and remixing. Our approach consistently outperforms several baselines in both quantitative and subjective evaluation. We also systematically study the impact of different types of contextual guidance and difficulty levels of the dataset. Our project page is here: https://wikichao.github.io/VisAH/.
- Abstract(参考訳): 近年、ビデオコンテンツの制作と消費が著しく増加している。
魅力的なコンテンツを作るには、ビジュアル要素とオーディオ要素の両方を慎重にキュレーションする必要があります。
視覚的キューキュレーションは、最適な視点選択や後編集といった手法を通じて、メディア制作の中心となっているが、その自然な手法であるオーディオは、同等の進歩を遂げていない。
これはしばしば視覚と音響の相違をもたらす。
このギャップを埋めるために、私たちは新しいタスクを導入する: 視覚誘導音響強調表示(visual-guided acoustic highlighting)は、オーディオを変換して、付随するビデオによってガイドされる適切なハイライト効果を提供し、最終的にはより調和したオーディオ視覚体験を作り出すことを目的としている。
この課題を解決するために,フレキシブルなトランスフォーマーベースのマルチモーダルフレームワークを提案する。
当社のモデルをトレーニングするために、新たなデータセット -- 泥だらけのミックスデータセットも導入しました。
我々は、低混合音声をシミュレートする擬似データ生成プロセスを開発し、3段階のプロセス -- 分離、調整、リミックス -- を通じて現実世界のシナリオを模倣する。
定量的評価と主観的評価の両面で,我々のアプローチは一貫していくつかのベースラインを上回ります。
また、異なる種類のコンテキストガイダンスとデータセットの難易度の影響を体系的に研究する。
私たちのプロジェクトページはこちらです。
関連論文リスト
- Language-Guided Joint Audio-Visual Editing via One-Shot Adaptation [56.92841782969847]
言語誘導型共同視覚編集という新しいタスクを導入する。
この課題は、音声と映像のペアが与えられたとき、言語指導に基づいて与えられた音質イベントを編集することにより、新たな音声・視覚コンテンツを生成することである。
共同音声・視覚編集のための拡散型フレームワークを提案し,2つの重要なアイデアを紹介した。
論文 参考訳(メタデータ) (2024-10-09T22:02:30Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - AdVerb: Visually Guided Audio Dereverberation [49.958724234969445]
本稿では,新しいオーディオ・ビジュアル・デバーベレーション・フレームワークであるAdVerbを紹介する。
残響音に加えて視覚的手がかりを用いてクリーンオーディオを推定する。
論文 参考訳(メタデータ) (2023-08-23T18:20:59Z) - Exploiting Audio-Visual Consistency with Partial Supervision for Spatial
Audio Generation [45.526051369551915]
本論文では,モノラル映像を音声と視覚の要素間の関係を利用して変換するオーディオ空間化フレームワークを提案する。
ベンチマークデータセットに関する実験では,半教師ありシナリオと完全教師ありシナリオの両方において,提案フレームワークの有効性を確認した。
論文 参考訳(メタデータ) (2021-05-03T09:34:11Z) - Sound2Sight: Generating Visual Dynamics from Sound and Context [36.38300120482868]
本稿では,オーディオと過去のフレームの結合埋め込みに先立って,フレーム単位の学習をトレーニングする,深い変動の枠組みであるSound2Sightを紹介する。
生成したフレームの品質とコヒーレンスを改善するために,マルチモーダル判別器を提案する。
実験の結果,Sound2Sightは生成した映像の画質において,映像の状態を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-23T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。