論文の概要: The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation
- arxiv url: http://arxiv.org/abs/2405.15103v1
- Date: Thu, 23 May 2024 23:25:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:38:12.568404
- Title: The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation
- Title(参考訳): 可聴音発生空間における音楽音響信号の高密度化
- Authors: Nick Collins,
- Abstract要約: ホワイトノイズ信号は任意の値の構成にアクセスできるが、統計学的に多くのサンプルが均一なスペクトル分布を呈する傾向がある。
ホワイトノイズが異なる期間にわたって音楽のような信号を生成する確率を解析する。
本研究の適用性は,音楽が貴重な希少性を持つことを示すだけでなく,音声信号空間の全体サイズに対する音楽の大きさの検証によって,新しい世代のアルゴリズム音楽システムに情報を提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A white noise signal can access any possible configuration of values, though statistically over many samples tends to a uniform spectral distribution, and is highly unlikely to produce intelligible sound. But how unlikely? The probability that white noise generates a music-like signal over different durations is analyzed, based on some necessary features observed in real music audio signals such as mostly proximate movement and zero crossing rate. Given the mathematical results, the rarity of music as a signal is considered overall. The applicability of this study is not just to show that music has a precious rarity value, but that examination of the size of music relative to the overall size of audio signal space provides information to inform new generations of algorithmic music system (which are now often founded on audio signal generation directly, and may relate to white noise via such machine learning processes as diffusion). Estimated upper bounds on the rarity of music to the size of various physical and musical spaces are compared, to better understand the magnitude of the results (pun intended). Underlying the research are the questions `how much music is still out there?' and `how much music could a machine learning process actually reach?'.
- Abstract(参考訳): ホワイトノイズ信号は、可能な値の構成にアクセスできるが、統計学的に多くのサンプルが均一なスペクトル分布を呈し、知性のある音を発生させる可能性が極めて低い。
しかし、そうはならない。
白色雑音が時間差で音楽的な信号を生成する確率は,主に近位運動やゼロ交叉速度といった実音響信号で観測されるいくつかの必要な特徴に基づいて分析される。
数学的な結果を考えると、信号としての音楽の希少性は全体として考慮される。
本研究の適用性は、音楽が貴重な希少性を持つことを示すだけでなく、音声信号空間の全体サイズに対する音楽の大きさの検証によって、新しい世代のアルゴリズム音楽システム(現在ではしばしば音声信号生成を直接ベースとしており、拡散のような機械学習プロセスによるホワイトノイズと関連付けられている)を知らせる情報を提供する。
様々な物理空間や音楽空間の大きさに対する音楽の希少性に関する推定上界を比較検討し、結果の規模(プン意図)をよりよく理解する。
研究の根底にあるのは,「どの程度の音楽がまだ存在するのか」,「機械学習プロセスが実際にどれだけ音楽に到達できるのか?」といった問いである。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - A Dataset and Baselines for Measuring and Predicting the Music Piece Memorability [16.18336216092687]
音楽の記憶力の測定と予測に重点を置いている。
私たちは、音楽の記憶可能性の予測と分析のためにベースラインを訓練します。
改善の余地はあるものの、限られたデータで音楽の記憶可能性を予測することは可能であることを実証する。
論文 参考訳(メタデータ) (2024-05-21T14:57:04Z) - A Novel Audio Representation for Music Genre Identification in MIR [3.203495505471781]
音楽情報検索タスクの場合、最も一般的な音声表現はMel Spectrogramsのような時間周波数ベースである。
本研究は、最も一般的なMIR下流タスクの1つとして、新しい形態の音声表現の可能性について検討する。
革新的な生成的音楽モデル、すなわちJukeboxのために、新しいオーディオ表現が作られた。
Jukeboxの音声表現の有効性は、ステート・オブ・ザ・アート(SOTA)とほぼ同等のデータセットとほぼ同じトランスフォーマー設計を用いて、メル分光器と比較される。
論文 参考訳(メタデータ) (2024-04-01T11:40:09Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - One-Shot Acoustic Matching Of Audio Signals -- Learning to Hear Music In
Any Room/ Concert Hall [3.652509571098291]
興味ある音を他の音響空間に変換できる新しいアーキテクチャを提案する。
我々のフレームワークは、ニューラルネットワークが時間周波数表現における各点の利得を調整することを可能にする。
論文 参考訳(メタデータ) (2022-10-27T19:54:05Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。