論文の概要: MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization
- arxiv url: http://arxiv.org/abs/2409.03844v1
- Date: Thu, 5 Sep 2024 18:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:40:07.727291
- Title: MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization
- Title(参考訳): MetaBGM: 環境認識とパーソナライゼーションを備えた連続マルチシーン体験のための動的サウンドトラック変換
- Authors: Haoxuan Liu, Zihao Wang, Haorong Hong, Youwei Feng, Jiaxin Yu, Han Diao, Yunfei Xu, Kejun Zhang,
- Abstract要約: 本稿では,動的シーンやリアルタイムユーザインタラクションに適応するバックグラウンド音楽を生成するフレームワークであるMetaBGMを紹介する。
実験により,MetaBGMは対話型アプリケーションにおいて,コンテキストに関連のある動的バックグラウンド音楽を効果的に生成することを示した。
- 参考スコア(独自算出の注目度): 13.244986817573082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces MetaBGM, a groundbreaking framework for generating background music that adapts to dynamic scenes and real-time user interactions. We define multi-scene as variations in environmental contexts, such as transitions in game settings or movie scenes. To tackle the challenge of converting backend data into music description texts for audio generation models, MetaBGM employs a novel two-stage generation approach that transforms continuous scene and user state data into these texts, which are then fed into an audio generation model for real-time soundtrack creation. Experimental results demonstrate that MetaBGM effectively generates contextually relevant and dynamic background music for interactive applications.
- Abstract(参考訳): 本稿では,動的シーンやリアルタイムユーザインタラクションに適応するバックグラウンド音楽を生成するための基盤的フレームワークであるMetaBGMを紹介する。
我々は、マルチシーンを、ゲーム設定や映画のシーンの遷移など、環境コンテキストのバリエーションとして定義する。
バックエンドデータをオーディオ生成モデルのための音楽記述テキストに変換するという課題に対処するため、MetaBGMは、連続シーンとユーザ状態データをこれらのテキストに変換する新しい2段階生成アプローチを採用し、それをリアルタイムなサウンドトラック生成のためにオーディオ生成モデルに入力する。
実験により,MetaBGMは対話型アプリケーションにおいて,コンテキストに関連のある動的バックグラウンド音楽を効果的に生成することを示した。
関連論文リスト
- Long-Form Text-to-Music Generation with Adaptive Prompts: A Case of Study in Tabletop Role-Playing Games Soundtracks [0.5524804393257919]
本稿では,長大な音楽制作におけるテキストからオーディオまでの音楽生成モデルの有用性について考察する。
Babel BardoはLarge Language Models(LLM)を用いて音声の書き起こしを音楽記述に変換するシステムで、テキストから音楽へのモデルを制御する。
論文 参考訳(メタデータ) (2024-11-06T14:29:49Z) - MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization [52.498942604622165]
本稿では,ビデオコンテンツに合わせた音楽を生成するためのフレームワークであるMuViについて述べる。
MuViは、特別に設計された視覚適応器を通じて映像コンテンツを分析し、文脈的および時間的に関係のある特徴を抽出する。
音声品質と時間同期の両方において, MuVi が優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-10-16T18:44:56Z) - VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos [32.741262543860934]
ビデオ入力からバックグラウンド音楽を生成する学習フレームワークを提案する。
我々は,新しいセマンティック・ビデオ・ミュージックアライメント・スキームを用いた生成型ビデオ・ミュージック・トランスフォーマーを開発した。
新しい時間的ビデオエンコーダアーキテクチャにより、多くの高密度なサンプルフレームからなる映像を効率的に処理できる。
論文 参考訳(メタデータ) (2024-09-11T17:56:48Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。
次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。
Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文 参考訳(メタデータ) (2024-05-20T09:48:36Z) - AudioScenic: Audio-Driven Video Scene Editing [55.098754835213995]
本稿では,映像シーン編集のためのオーディオ駆動フレームワークであるAudioScenicを紹介する。
AudioScenicは、時間対応の音声セマンティックインジェクションプロセスを通じて、音声セマンティクスを視覚シーンに統合する。
音の大きさの変化に応じてシーンの時間的ダイナミクスを調節するオーディオ・マグニチュード・モジュレータ・モジュールを提案する。
第2に、オーディオ周波数フーザーモジュールは、映像シーンのダイナミックスとオーディオの周波数を一致させることにより、時間的一貫性を確保するように設計されている。
論文 参考訳(メタデータ) (2024-04-25T12:55:58Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。