論文の概要: Multilingual Music Genre Embeddings for Effective Cross-Lingual Music
Item Annotation
- arxiv url: http://arxiv.org/abs/2009.07755v1
- Date: Wed, 16 Sep 2020 15:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:28:07.693144
- Title: Multilingual Music Genre Embeddings for Effective Cross-Lingual Music
Item Annotation
- Title(参考訳): 効果的なクロスリンガル音楽項目アノテーションのための多言語音楽ジャンル埋め込み
- Authors: Elena V. Epure and Guillaume Salha and Romain Hennequin
- Abstract要約: 言語間音楽ジャンルの翻訳は、並列コーパスに頼ることなく可能である。
多言語音楽ジャンルの埋め込みを学習することにより、並列コーパスに頼ることなく、多言語音楽ジャンルの翻訳を可能にする。
本手法は,複数の言語におけるタグシステム間の楽曲ジャンルの翻訳に有効である。
- 参考スコア(独自算出の注目度): 9.709229853995987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Annotating music items with music genres is crucial for music recommendation
and information retrieval, yet challenging given that music genres are
subjective concepts. Recently, in order to explicitly consider this
subjectivity, the annotation of music items was modeled as a translation task:
predict for a music item its music genres within a target vocabulary or
taxonomy (tag system) from a set of music genre tags originating from other tag
systems. However, without a parallel corpus, previous solutions could not
handle tag systems in other languages, being limited to the English-language
only. Here, by learning multilingual music genre embeddings, we enable
cross-lingual music genre translation without relying on a parallel corpus.
First, we apply compositionality functions on pre-trained word embeddings to
represent multi-word tags.Second, we adapt the tag representations to the music
domain by leveraging multilingual music genres graphs with a modified
retrofitting algorithm. Experiments show that our method: 1) is effective in
translating music genres across tag systems in multiple languages (English,
French and Spanish); 2) outperforms the previous baseline in an
English-language multi-source translation task. We publicly release the new
multilingual data and code.
- Abstract(参考訳): 音楽ジャンルの注釈付けは音楽推薦や情報検索に不可欠であるが、音楽ジャンルが主観的概念であることを考えると困難である。
近年、この主観性を明確に考慮するために、音楽項目の注釈を翻訳タスクとしてモデル化し、対象とする語彙内で楽曲のジャンルを予測したり、他のタグシステムから派生した音楽ジャンルタグのセットから分類(タグシステム)を行った。
しかし、並列コーパスがなければ、以前のソリューションでは他の言語のタグシステムを扱えず、英語のみに限られていた。
ここでは,多言語音楽ジャンルの組込みを学習することにより,並列コーパスに頼らずに,多言語音楽ジャンルの翻訳を可能にする。
まず,複数単語タグを表すために事前学習した単語埋め込みに合成関数を適用し,修正された再適合アルゴリズムを用いて多言語音楽ジャンルグラフを活用することで,タグ表現を音楽領域に適用する。
実験によると この手法は
1) 複数の言語(英語,フランス語,スペイン語)のタグシステム間の音楽ジャンルの翻訳に有効である。
2) 英語の複数ソース翻訳タスクでは, 以前のベースラインよりも優れていた。
新しい多言語データとコードを公開しています。
関連論文リスト
- ChatMusician: Understanding and Generating Music Intrinsically with LLM [81.48629006702409]
ChatMusicianは、固有の音楽能力を統合するオープンソースのLarge Language Models(LLM)である。
外部のマルチモーダル・ニューラル構造やトークンーザを使わずに、純粋なテキスト・トークンーザで音楽を理解して生成することができる。
我々のモデルは、テキスト、コード、メロディ、モチーフ、音楽形式など、よく構造化されたフル長の音楽を構成することができる。
論文 参考訳(メタデータ) (2024-02-25T17:19:41Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - MuLan: A Joint Embedding of Music Audio and Natural Language [15.753767984842014]
本稿では,音声アノテーションを自然言語記述に直接リンクする新世代のモデルを提案する。
MuLanは、4400万曲の録音で訓練された、2towerのジョイントオーディオテキスト埋め込みモデルの形をしている。
論文 参考訳(メタデータ) (2022-08-26T03:13:21Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Genre-conditioned Acoustic Models for Automatic Lyrics Transcription of
Polyphonic Music [73.73045854068384]
本稿では,新ジャンルネットワークを用いたポリフォニック音楽の歌詞の書き起こしを提案する。
提案するネットワークは,事前学習されたモデルパラメータを採用し,階層間のジャンルアダプタを組み込んで,歌詞とジャンルのペアのジャンルの特色を抽出する。
実験の結果,提案するジャンル条件付きネットワークは既存の歌詞の書き起こしシステムよりも優れていた。
論文 参考訳(メタデータ) (2022-04-07T09:15:46Z) - Modeling the Music Genre Perception across Language-Bound Cultures [10.223656553455003]
本研究では,言語横断・文化特化音楽ジャンルアノテーションの実現可能性について検討する。
教師なしの言語間音楽ジャンルのアノテーションは高い精度で実現可能であることを示す。
我々は,多言語事前学習型埋め込みモデルのベンチマークを行うために,新しいドメイン依存型言語間コーパスを導入する。
論文 参考訳(メタデータ) (2020-10-13T12:20:32Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。