論文の概要: Analyzing Byte-Pair Encoding on Monophonic and Polyphonic Symbolic Music: A Focus on Musical Phrase Segmentation
- arxiv url: http://arxiv.org/abs/2410.01448v1
- Date: Wed, 2 Oct 2024 11:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:44:25.211485
- Title: Analyzing Byte-Pair Encoding on Monophonic and Polyphonic Symbolic Music: A Focus on Musical Phrase Segmentation
- Title(参考訳): モノフォニックおよびポリフォニックシンボリック音楽におけるバイトペア符号化の分析 : 音楽的フレーズセグメンテーションに着目して
- Authors: Dinh-Viet-Toan Le, Louis Bigo, Mikaela Keller,
- Abstract要約: Byte-Pair
(BPE)は、自然言語処理において、サブワードの語彙を構築するためによく使われるアルゴリズムである。
音楽コンテンツの種類によってBPEがどのように振る舞うかを検討する。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Byte-Pair Encoding (BPE) is an algorithm commonly used in Natural Language Processing to build a vocabulary of subwords, which has been recently applied to symbolic music. Given that symbolic music can differ significantly from text, particularly with polyphony, we investigate how BPE behaves with different types of musical content. This study provides a qualitative analysis of BPE's behavior across various instrumentations and evaluates its impact on a musical phrase segmentation task for both monophonic and polyphonic music. Our findings show that the BPE training process is highly dependent on the instrumentation and that BPE "supertokens" succeed in capturing abstract musical content. In a musical phrase segmentation task, BPE notably improves performance in a polyphonic setting, but enhances performance in monophonic tunes only within a specific range of BPE merges.
- Abstract(参考訳): Byte-Pair Encoding (BPE) は、自然言語処理において、最近シンボリック音楽に適用されたサブワードの語彙を構築するためによく使われるアルゴリズムである。
シンボリック音楽はテキスト,特にポリフォニーとは大きく異なるので,BPEが音楽コンテンツの種類によってどのように振る舞うかを考察する。
本研究は,BPEの動作をさまざまな楽器で定性的に分析し,モノフォニック音楽とポリフォニック音楽の両方に対する音節セグメンテーション課題に与える影響を評価する。
以上の結果から,BPEのトレーニングプロセスは楽器に大きく依存しており,BPEの「スーパートケン」が抽象的な音楽内容の収集に成功していることが明らかとなった。
音楽句セグメンテーションタスクでは、BPEは特にポリフォニックセッティングのパフォーマンスを向上させるが、特定のBPEマージの範囲内でのみ、モノフォニックチューンのパフォーマンスを向上させる。
関連論文リスト
- CoLLAP: Contrastive Long-form Language-Audio Pretraining with Musical Temporal Structure Augmentation [17.41880273107978]
Contrastive Long-form Language-Audio Pretraining (textbfCoLLAP)
入力音声(最大5分)と言語記述(250語)の認識窓を著しく拡張するコントラストロングフォーム言語事前学習(textbfCoLLAP)を提案する。
大規模なAudioSetトレーニングデータセットから51.3Kのオーディオテキストペアを収集し,平均オーディオ長が288秒に達する。
論文 参考訳(メタデータ) (2024-10-03T07:46:51Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - On the Effectiveness of Acoustic BPE in Decoder-Only TTS [16.013858075350054]
音声をトークン化しデコーダのみのモデルで生成することは、テキスト音声(TTS)と音声言語モデリング(SLM)にとって有望な方向である。
音声トークンのシーケンス長を短くするため、SLMでは、自己教師付き意味表現から音声トークンを文字として扱い、さらにトークンシーケンスを圧縮する音響バイトペア符号化(BPE)が出現している。
意味的音声トークンを持つデコーダのみのTSモデルにおいて,音響的BPEの様々な設定について検討を行い,その有効性を検討した。
論文 参考訳(メタデータ) (2024-07-04T12:35:32Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - A Phoneme-Informed Neural Network Model for Note-Level Singing
Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。
本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文 参考訳(メタデータ) (2023-04-12T15:36:01Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。