論文の概要: Multilingual Music Genre Embeddings for Effective Cross-Lingual Music
Item Annotation
- arxiv url: http://arxiv.org/abs/2009.07755v1
- Date: Wed, 16 Sep 2020 15:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:28:07.693144
- Title: Multilingual Music Genre Embeddings for Effective Cross-Lingual Music
Item Annotation
- Title(参考訳): 効果的なクロスリンガル音楽項目アノテーションのための多言語音楽ジャンル埋め込み
- Authors: Elena V. Epure and Guillaume Salha and Romain Hennequin
- Abstract要約: 言語間音楽ジャンルの翻訳は、並列コーパスに頼ることなく可能である。
多言語音楽ジャンルの埋め込みを学習することにより、並列コーパスに頼ることなく、多言語音楽ジャンルの翻訳を可能にする。
本手法は,複数の言語におけるタグシステム間の楽曲ジャンルの翻訳に有効である。
- 参考スコア(独自算出の注目度): 9.709229853995987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating music items with music genres is crucial for music recommendation
and information retrieval, yet challenging given that music genres are
subjective concepts. Recently, in order to explicitly consider this
subjectivity, the annotation of music items was modeled as a translation task:
predict for a music item its music genres within a target vocabulary or
taxonomy (tag system) from a set of music genre tags originating from other tag
systems. However, without a parallel corpus, previous solutions could not
handle tag systems in other languages, being limited to the English-language
only. Here, by learning multilingual music genre embeddings, we enable
cross-lingual music genre translation without relying on a parallel corpus.
First, we apply compositionality functions on pre-trained word embeddings to
represent multi-word tags.Second, we adapt the tag representations to the music
domain by leveraging multilingual music genres graphs with a modified
retrofitting algorithm. Experiments show that our method: 1) is effective in
translating music genres across tag systems in multiple languages (English,
French and Spanish); 2) outperforms the previous baseline in an
English-language multi-source translation task. We publicly release the new
multilingual data and code.
- Abstract(参考訳): 音楽ジャンルの注釈付けは音楽推薦や情報検索に不可欠であるが、音楽ジャンルが主観的概念であることを考えると困難である。
近年、この主観性を明確に考慮するために、音楽項目の注釈を翻訳タスクとしてモデル化し、対象とする語彙内で楽曲のジャンルを予測したり、他のタグシステムから派生した音楽ジャンルタグのセットから分類(タグシステム)を行った。
しかし、並列コーパスがなければ、以前のソリューションでは他の言語のタグシステムを扱えず、英語のみに限られていた。
ここでは,多言語音楽ジャンルの組込みを学習することにより,並列コーパスに頼らずに,多言語音楽ジャンルの翻訳を可能にする。
まず,複数単語タグを表すために事前学習した単語埋め込みに合成関数を適用し,修正された再適合アルゴリズムを用いて多言語音楽ジャンルグラフを活用することで,タグ表現を音楽領域に適用する。
実験によると この手法は
1) 複数の言語(英語,フランス語,スペイン語)のタグシステム間の音楽ジャンルの翻訳に有効である。
2) 英語の複数ソース翻訳タスクでは, 以前のベースラインよりも優れていた。
新しい多言語データとコードを公開しています。
関連論文リスト
- CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models [51.03510073676228]
CLaMP 2は、音楽情報検索用の101言語に対応するシステムである。
大規模言語モデルを活用することで,大規模に洗練され一貫した多言語記述が得られる。
CLaMP 2は、多言語セマンティックサーチとモーダル間の音楽分類において、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-17T06:43:54Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models [11.834712543531756]
MuChoMusicは、オーディオに焦点を当てたマルチモーダル言語モデルにおける音楽理解を評価するためのベンチマークである。
これには1,187の質問が含まれており、いずれも人間のアノテータによって検証され、2つのパブリックな音楽データセットからソースされた644曲の楽曲が収録されている。
我々は5つのオープンソースモデルを評価し、言語モダリティの過度な信頼性を含むいくつかの落とし穴を識別する。
論文 参考訳(メタデータ) (2024-08-02T15:34:05Z) - ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z) - Modeling the Music Genre Perception across Language-Bound Cultures [10.223656553455003]
本研究では,言語横断・文化特化音楽ジャンルアノテーションの実現可能性について検討する。
教師なしの言語間音楽ジャンルのアノテーションは高い精度で実現可能であることを示す。
我々は,多言語事前学習型埋め込みモデルのベンチマークを行うために,新しいドメイン依存型言語間コーパスを導入する。
論文 参考訳(メタデータ) (2020-10-13T12:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。