論文の概要: An approach to hummed-tune and song sequences matching
- arxiv url: http://arxiv.org/abs/2410.20352v1
- Date: Sun, 27 Oct 2024 06:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:01.400277
- Title: An approach to hummed-tune and song sequences matching
- Title(参考訳): ハンム・チューンと歌のシーケンスマッチングへのアプローチ
- Authors: Loc Bao Pham, Huong Hoang Luong, Phu Thien Tran, Phuc Hoang Ngo, Vi Hoang Nguyen, Thinh Nguyen,
- Abstract要約: Hum2Song Zalo AI Challenge 2021は、ユーザーがハミングチューンを打つことで曲の名前を検索するコンテストだ。
本稿では,原型(mp3)からトレーニングおよび推論に使用可能な形式まで,事前処理されたデータの詳細について述べる。
結果は、公開テストセットのMRR@10測定値の94%近くと、公開リーダボードのトップ1に表示される。
- 参考スコア(独自算出の注目度): 5.005072606979947
- License:
- Abstract: Melody stuck in your head, also known as "earworm", is tough to get rid of, unless you listen to it again or sing it out loud. But what if you can not find the name of that song? It must be an intolerable feeling. Recognizing a song name base on humming sound is not an easy task for a human being and should be done by machines. However, there is no research paper published about hum tune recognition. Adapting from Hum2Song Zalo AI Challenge 2021 - a competition about querying the name of a song by user's giving humming tune, which is similar to Google's Hum to Search. This paper covers details about the pre-processed data from the original type (mp3) to usable form for training and inference. In training an embedding model for the feature extraction phase, we ran experiments with some states of the art, such as ResNet, VGG, AlexNet, MobileNetV2. And for the inference phase, we use the Faiss module to effectively search for a song that matched the sequence of humming sound. The result comes at nearly 94\% in MRR@10 metric on the public test set, along with the top 1 result on the public leaderboard.
- Abstract(参考訳): 耳にメロディが詰まっていて、「耳虫」としても知られていますが、もう一度聴いたり、大声で歌ったりしない限り、取り除くのは難しいです。
しかし、もしその曲の名前が見つからなかったらどうだろう?
それは耐え難い感覚に違いない。
歌の名前のベースをハミング音で認識することは、人間にとって簡単な作業ではなく、機械によって行われるべきである。
しかし、和音認識に関する研究論文は発表されていない。
Hum2Song Zalo AI Challenge 2021 – ユーザのハミングチューンによる曲名検索に関するコンペ。
本稿では,原型(mp3)からトレーニングおよび推論に使用可能な形式まで,事前処理されたデータの詳細について述べる。
特徴抽出フェーズの埋め込みモデルをトレーニングするために、ResNet、VGG、AlexNet、MobileNetV2といった最先端技術の実験を行った。
推論フェーズでは、Faissモジュールを使用して、ハミング音のシーケンスにマッチした歌を効果的に検索します。
結果は、公開テストセットのMRR@10測定値の94\%近くと、公開リーダボードの上位1位に含まれている。
関連論文リスト
- Melody Construction for Persian lyrics using LSTM recurrent neural networks [0.0]
歌詞の音節とメロディの間には音韻的相関があることが推定された。
この仮定を調査するためにSeq2seqニューラルネットワークを開発した。
ペルシャの歌のパラレル音節と音節列で訓練され、新しい音節列のための快楽な旋律が提案された。
論文 参考訳(メタデータ) (2024-10-23T18:11:44Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - REFFLY: Melody-Constrained Lyrics Editing Model [50.03960548399128]
任意の形態のプレーンテキストドラフトを高品質で本格的な歌詞に編集するための,最初の改訂フレームワークであるREFFLYを紹介する。
提案手法は,生成した歌詞が原文の意味を保ち,旋律と整合し,所望の曲構造に固執することを保証する。
論文 参考訳(メタデータ) (2024-08-30T23:22:34Z) - Accompanied Singing Voice Synthesis with Fully Text-controlled Melody [61.147446955297625]
Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。
完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
論文 参考訳(メタデータ) (2024-07-02T08:23:38Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage
Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。
高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文 参考訳(メタデータ) (2021-09-20T15:19:33Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - Towards Cover Song Detection with Siamese Convolutional Neural Networks [0.4737991126491218]
私たちは、数万のカバーソングオーディオクリップでニューラルネットワークをトレーニングし、保留のセットでそれをテストします。
最小バッチの65%の平均精度@1をランダムな推測の10倍の精度で取得する。
論文 参考訳(メタデータ) (2020-05-20T18:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。