論文の概要: TRBLLmaker -- Transformer Reads Between Lyrics Lines maker
- arxiv url: http://arxiv.org/abs/2212.04917v1
- Date: Fri, 9 Dec 2022 15:27:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:09:52.177180
- Title: TRBLLmaker -- Transformer Reads Between Lyrics Lines maker
- Title(参考訳): TRBLLmaker -- Lyrics Linesメーカー間のトランスフォーマー読み取り
- Authors: Mor Ventura and Michael Toker
- Abstract要約: 曲数行に暗黙的な意味を与える生成モデルを提案する。
我々のモデルはデコーダトランスフォーマーアーキテクチャ GPT-2 を用いており、入力は歌の歌詞である。
また、追加情報を追加するオプションにより、異なるプロンプト型の効果についても検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Even for us, it can be challenging to comprehend the meaning of songs. As
part of this project, we explore the process of generating the meaning of
songs. Despite the widespread use of text-to-text models, few attempts have
been made to achieve a similar objective. Songs are primarily studied in the
context of sentiment analysis. This involves identifying opinions and emotions
in texts, evaluating them as positive or negative, and utilizing these
evaluations to make music recommendations. In this paper, we present a
generative model that offers implicit meanings for several lines of a song. Our
model uses a decoder Transformer architecture GPT-2, where the input is the
lyrics of a song. Furthermore, we compared the performance of this architecture
with that of the encoder-decoder Transformer architecture of the T5 model. We
also examined the effect of different prompt types with the option of appending
additional information, such as the name of the artist and the title of the
song. Moreover, we tested different decoding methods with different training
parameters and evaluated our results using ROUGE. In order to build our
dataset, we utilized the 'Genious' API, which allowed us to acquire the lyrics
of songs and their explanations, as well as their rich metadata.
- Abstract(参考訳): 私たちにとっても、歌の意味を理解することは困難です。
このプロジェクトの一環として,歌の意味を生み出す過程について検討する。
テキストからテキストへのモデルが広く使われているにもかかわらず、同様の目的を達成する試みはほとんど行われていない。
歌は主に感情分析の文脈で研究されている。
これはテキスト中の意見や感情を識別し、肯定的あるいは否定的評価を行い、これらの評価を利用して音楽レコメンデーションを行う。
本稿では,歌の複数の行に対して暗黙的な意味を与える生成モデルを提案する。
我々のモデルはデコーダトランスフォーマーアーキテクチャ GPT-2 を用いており、入力は歌の歌詞である。
さらに,このアーキテクチャの性能を,T5モデルのエンコーダ・デコーダ・トランスフォーマーアーキテクチャと比較した。
また,アーティスト名や曲名などの追加情報を付加するオプションとして,さまざまなプロンプトタイプの効果についても検討した。
さらに,トレーニングパラメータの異なる異なる復号法をテストし,ルージュを用いて評価した。
データセットを構築するために、私たちは'genious' apiを使って、曲の歌詞とその説明、および豊富なメタデータを取得することができました。
関連論文リスト
- LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by
Whispering to ChatGPT [70.75170078517284]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z) - From Words to Music: A Study of Subword Tokenization Techniques in
Symbolic Music Generation [1.9188864062289432]
サブワードのトークン化は、Transformerベースのモデルを用いたテキストベースの自然言語処理タスクで広く成功している。
楽後トークン化方式にサブワードトークン化を適用し,より長い曲を同時に生成できることを見出した。
本研究は,サブワードのトークン化が記号的音楽生成の有望な手法であり,作曲に広範な影響を及ぼす可能性を示唆している。
論文 参考訳(メタデータ) (2023-04-18T12:46:12Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - The Contribution of Lyrics and Acoustics to Collaborative Understanding
of Mood [7.426508199697412]
データ駆動分析により歌詞と気分の関連性を検討した。
われわれのデータセットは100万曲近くで、Spotifyのストリーミングプラットフォーム上のユーザープレイリストから曲とムードのアソシエーションが生まれている。
我々は、トランスフォーマーに基づく最先端の自然言語処理モデルを利用して、歌詞と気分の関係を学習する。
論文 参考訳(メタデータ) (2022-05-31T19:58:41Z) - Lyric document embeddings for music tagging [0.38233569758620045]
本研究では,音楽タギングを目的とした楽曲の歌詞を定次元的特徴に組み込む実験的検討を行った。
数千万曲の産業規模データセット上で,トークンレベルと文書レベル表現の5つの計算方法と4つの計算方法が訓練されている。
平均的な単語埋め込みは、多くの下流のメトリクスにおいて、より複雑なアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2021-11-29T11:02:24Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - Embeddings as representation for symbolic music [0.0]
音楽の意味を含む方法で音楽のエンコードを可能にする表現技法は、コンピュータ音楽タスクのために訓練されたモデルの結果を改善する。
本稿では,データセットの3つの異なるバリエーションから音符を表現し,モデルが有用な音楽パターンを捉えることができるかどうかを解析するための埋め込み実験を行う。
論文 参考訳(メタデータ) (2020-05-19T13:04:02Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z) - DSTC8-AVSD: Multimodal Semantic Transformer Network with Retrieval Style
Word Generator [61.70748716353692]
オーディオ・ビジュアル・シーン・アウェア・ダイアログ(AVSD)は、あるシーン、ビデオ、オーディオ、ダイアログの前のターン履歴で質問に対する応答を生成するタスクである。
このタスクの既存のシステムは、エンコーダ-デコーダフレームワークを備えたトランスフォーマーまたはリカレントニューラルネットワークベースのアーキテクチャを採用している。
本稿では,マルチモーダル・セマンティック・トランスフォーマー・ネットワークを提案し,単語の埋め込みを問合せすることで単語を生成する単語埋め込み層を備えたトランスフォーマー・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-01T07:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。