Fugu-MT 論文翻訳(概要): Musical Word Embedding: Bridging the Gap between Listening Contexts and Music

論文の概要: Musical Word Embedding: Bridging the Gap between Listening Contexts and Music

arxiv url: http://arxiv.org/abs/2008.01190v1
Date: Thu, 23 Jul 2020 06:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-07 12:22:09.282085
Title: Musical Word Embedding: Bridging the Gap between Listening Contexts and Music
Title（参考訳）: 音楽の単語埋め込み: 聞き取りコンテキストと音楽のギャップを埋める
Authors: Seungheon Doh, Jongpil Lee, Tae Hong Park, Juhan Nam
Abstract要約: 我々は、一般的なテキストデータと音楽固有のデータの組み合わせを用いて、単語の分散表現を訓練する。聴取コンテキストと楽曲の関連性の観点からシステムの評価を行った。
参考スコア（独自算出の注目度）: 5.89179309980335
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Word embedding pioneered by Mikolov et al. is a staple technique for word representations in natural language processing (NLP) research which has also found popularity in music information retrieval tasks. Depending on the type of text data for word embedding, however, vocabulary size and the degree of musical pertinence can significantly vary. In this work, we (1) train the distributed representation of words using combinations of both general text data and music-specific data and (2) evaluate the system in terms of how they associate listening contexts with musical compositions.
Abstract（参考訳）: Mikolovらによって開拓された単語埋め込みは自然言語処理(NLP)研究における単語表現の基本的な技法であり、音楽情報検索タスクでも人気がある。しかし、単語埋め込みのためのテキストデータの種類によって、語彙のサイズと音楽的関係の程度は大きく異なる。本研究では,(1)一般的なテキストデータと音楽特化データの組み合わせを用いて,単語の分散表現を訓練し,(2)聴取コンテキストと楽曲の関連付け方の観点からシステムの評価を行う。

関連論文リスト

Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-04T09:33:34Z)
SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。 3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。 SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio [7.4327407361824935]
音楽の豊かな意味記述を含む新しいオープンデータセットWikiMuTeを提案する。このデータはウィキペディアの豊富な楽曲に関する記事のカタログから得られたものである。我々は、テキストと音声の表現を共同で学習し、モーダル検索を行うモデルを訓練する。
論文参考訳（メタデータ） (2023-12-14T18:38:02Z)
Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文参考訳（メタデータ） (2023-11-28T21:15:24Z)
PWESuite: Phonetic Word Embeddings and Tasks They Facilitate [37.09948594297879]
音声による単語の埋め込みを構築するために,音声特徴を用いた3つの手法を開発した。また、過去、現在、将来のメソッドを適切に評価するためのタスクスイートも提供します。
論文参考訳（メタデータ） (2023-04-05T16:03:42Z)
MULTIMODAL ANALYSIS: Informed content estimation and audio source separation [0.0]
歌声は、オーディオ信号とテキスト情報を独自の方法で直接接続します。本研究は、音源分離と情報コンテンツ推定のための音声と歌詞の相互作用に焦点を当てた。
論文参考訳（メタデータ） (2021-04-27T15:45:21Z)
Match-Ignition: Plugging PageRank into Transformer for Long-form Text Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文参考訳（メタデータ） (2021-01-16T10:34:03Z)
Improving Machine Reading Comprehension with Contextualized Commonsense Knowledge [62.46091695615262]
我々は、機械読解の理解を改善するために、常識知識を抽出することを目指している。構造化知識を文脈内に配置することで,関係を暗黙的に表現することを提案する。我々は,教師の学習パラダイムを用いて,複数種類の文脈的知識を学生機械読取機に注入する。
論文参考訳（メタデータ） (2020-09-12T17:20:01Z)
Seeing wake words: Audio-visual Keyword Spotting [103.12655603634337]
KWS-Netは、類似マップ中間表現を用いてタスクをシーケンスマッチングとパターン検出に分離する新しい畳み込みアーキテクチャである。本手法は他の言語,特にフランス語とドイツ語に一般化し,より少ない言語データで英語に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2020-09-02T17:57:38Z)
On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。私たちはこの現象を「語彙依存」と呼んでいる。本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文参考訳（メタデータ） (2020-05-08T11:16:58Z)
Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。適切な単語の埋め込みを選択することは複雑な作業ですなぜなら、投影された埋め込み空間は人間にとって直感的ではないからです
論文参考訳（メタデータ） (2020-05-08T01:16:03Z)
A Survey on Contextual Embeddings [48.04732268018772]
文脈埋め込みは、各単語を文脈に基づく表現として割り当て、様々な文脈にまたがる単語の使用を捉え、言語間で伝達される知識を符号化する。本稿では,既存の文脈埋め込みモデル,言語間多言語事前学習,下流タスクへの文脈埋め込みの適用,モデル圧縮,モデル解析についてレビューする。
論文参考訳（メタデータ） (2020-03-16T15:22:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。