論文の概要: Exploring Musical Roots: Applying Audio Embeddings to Empower Influence
Attribution for a Generative Music Model
- arxiv url: http://arxiv.org/abs/2401.14542v1
- Date: Thu, 25 Jan 2024 22:20:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 16:25:35.316584
- Title: Exploring Musical Roots: Applying Audio Embeddings to Empower Influence
Attribution for a Generative Music Model
- Title(参考訳): 音楽ルートの探索 : 音響埋め込みを応用して生成的音楽モデルに対する影響帰属
- Authors: Julia Barnett, Hugo Flores Garcia, Bryan Pardo
- Abstract要約: そこで我々は,学習データの属性を理解するのに有用な方法で,類似した楽曲を識別する手法を開発した。
VampNetのトレーニングに使用した500万本のオーディオクリップにおいて,CLMRとCLAPの埋め込みを類似度測定と比較した。
この作業は、自動的なインフルエンス属性を生成モデルに組み込むことで、モデル作成者とユーザが無知な予算から情報生成に移行することを約束する。
- 参考スコア(独自算出の注目度): 6.476298483207895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Every artist has a creative process that draws inspiration from previous
artists and their works. Today, "inspiration" has been automated by generative
music models. The black box nature of these models obscures the identity of the
works that influence their creative output. As a result, users may
inadvertently appropriate, misuse, or copy existing artists' works. We
establish a replicable methodology to systematically identify similar pieces of
music audio in a manner that is useful for understanding training data
attribution. A key aspect of our approach is to harness an effective music
audio similarity measure. We compare the effect of applying CLMR and CLAP
embeddings to similarity measurement in a set of 5 million audio clips used to
train VampNet, a recent open source generative music model. We validate this
approach with a human listening study. We also explore the effect that
modifications of an audio example (e.g., pitch shifting, time stretching,
background noise) have on similarity measurements. This work is foundational to
incorporating automated influence attribution into generative modeling, which
promises to let model creators and users move from ignorant appropriation to
informed creation. Audio samples that accompany this paper are available at
https://tinyurl.com/exploring-musical-roots.
- Abstract(参考訳): すべてのアーティストは、以前のアーティストとその作品からインスピレーションを得る創造的なプロセスを持っています。
現在、「吸気」は生成音楽モデルによって自動化されている。
これらのモデルのブラックボックスの性質は、創造的なアウトプットに影響を与える作品のアイデンティティを曖昧にしている。
その結果、ユーザーは不注意に適切、誤用、あるいは既存のアーティストの作品のコピーをすることができる。
我々は,学習データ帰属を理解するのに有用な方法で,類似した楽曲を体系的に同定する,複製可能な手法を確立する。
我々のアプローチの重要な側面は、効果的な音楽聴取類似度尺度を活用することである。
本稿では, CLMR と CLAP の埋め込みを類似度測定に応用することにより, VampNet のトレーニングに使用した500万本のオーディオクリップを比較検討した。
我々は、このアプローチを人間のリスニング研究で検証する。
また,音響サンプルの修正(ピッチシフト,タイムストレッチ,バックグラウンドノイズなど)が類似度測定に与える影響についても検討する。
この作業は、モデル作成者やユーザが無知から情報生成に移行することを約束する生成モデルに、自動的な影響帰属を取り入れることの基礎となっている。
この論文に付随するオーディオサンプルはhttps://tinyurl.com/exploring-musical-rootsで入手できる。
関連論文リスト
- Melody Is All You Need For Music Generation [10.366088659024685]
本稿では,メロディを用いた音楽生成を導く最初の新しいアプローチであるメロディガイド音楽生成(MMGen)モデルを提案する。
具体的には、まずメロディを、マルチモーダルアライメントモジュールを用いて、音声波形とその関連する記述と整列する。
これによりMMGenは提供された音声のスタイルに合わせて音楽を生成すると同時に、与えられたテキスト記述の内容を反映した音楽を生成することができる。
論文 参考訳(メタデータ) (2024-09-30T11:13:35Z) - Combining audio control and style transfer using latent diffusion [1.705371629600151]
本稿では,単一モデル内での明示的な制御とスタイル転送を統一することを目的とする。
我々のモデルは、明示的な制御または他のオーディオ例を通して構造を指定しながら、音色ターゲットにマッチする音声を生成することができる。
本手法は,異なるジャンルのターゲットオーディオのスタイルにリズミカル・メロディックなコンテンツを転送することで,完全な楽曲のカバーバージョンを生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-31T23:27:27Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Video2Music: Suitable Music Generation from Videos using an Affective
Multimodal Transformer model [32.801213106782335]
我々は、提供されたビデオにマッチできる生成型音楽AIフレームワーク、Video2Musicを開発した。
そこで本研究では,映像コンテンツにマッチする楽曲を感情的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-02T03:33:00Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - LyricJam Sonic: A Generative System for Real-Time Composition and
Musical Improvisation [13.269034230828032]
LyricJam Sonicは、ミュージシャンが以前の録音を再発見し、他の録音とテクスチャ化し、オリジナル音楽の作曲をリアルタイムで作成するための新しいツールである。
バイモーダルAI駆動のアプローチでは、生成された歌詞行を使用して、アーティストの過去のスタジオ録音から一致するオーディオクリップを見つける。
アーティストたちは、過去の音声セグメントを意図的に探すという分析的・批判的な状態に陥るのではなく、音楽制作に創造的な流れを保とうとしている。
論文 参考訳(メタデータ) (2022-10-27T17:27:58Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Learning to Generate Music With Sentiment [1.8275108630751844]
本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。
音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。
論文 参考訳(メタデータ) (2021-03-09T03:16:52Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。