Fugu-MT 論文翻訳(概要): Can Impressions of Music be Extracted from Thumbnail Images?

論文の概要: Can Impressions of Music be Extracted from Thumbnail Images?

arxiv url: http://arxiv.org/abs/2501.02511v1
Date: Sun, 05 Jan 2025 11:51:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-07 16:36:51.394677
Title: Can Impressions of Music be Extracted from Thumbnail Images?
Title（参考訳）: タムブネイル画像から音楽の印象を抽出できるか?
Authors: Takashi Harada, Takehiro Motomitsu, Katsuhiko Hayashi, Yusuke Sakai, Hidetaka Kamigaito,
Abstract要約: 音楽データとそれに対応する自然言語記述からなる大規模な公開データセットは、音楽キャプションとして知られています。音楽サムネイル画像から推定される非音楽的側面を取り入れた音楽キャプションデータを生成する手法を提案する。非音楽的側面を含む約360,000字幕のデータセットを作成し,音楽検索モデルを訓練した。
参考スコア（独自算出の注目度）: 20.605634973566573
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In recent years, there has been a notable increase in research on machine learning models for music retrieval and generation systems that are capable of taking natural language sentences as inputs. However, there is a scarcity of large-scale publicly available datasets, consisting of music data and their corresponding natural language descriptions known as music captions. In particular, non-musical information such as suitable situations for listening to a track and the emotions elicited upon listening is crucial for describing music. This type of information is underrepresented in existing music caption datasets due to the challenges associated with extracting it directly from music data. To address this issue, we propose a method for generating music caption data that incorporates non-musical aspects inferred from music thumbnail images, and validated the effectiveness of our approach through human evaluations. Additionally, we created a dataset with approximately 360,000 captions containing non-musical aspects. Leveraging this dataset, we trained a music retrieval model and demonstrated its effectiveness in music retrieval tasks through evaluation.
Abstract（参考訳）: 近年,自然言語文を入力として扱える音楽検索・生成システムにおける機械学習モデルの研究が顕著に増加している。しかし、音楽データとそれに対応する自然言語記述からなる大規模な公開データセットは、音楽キャプションとして知られている。特に、トラックを聴くのに適した状況や聴くのに要する感情などの音楽的でない情報は、音楽を記述するのに不可欠である。このタイプの情報は、音楽データから直接抽出する際の課題のため、既存の音楽キャプションデータセットでは表現されていない。そこで本研究では,音楽サムネイル画像から推定される非音楽的側面を取り入れた音楽キャプションデータを生成する手法を提案する。さらに,非音楽的側面を含む約360,000のキャプションを持つデータセットを作成した。このデータセットを応用して,音楽検索モデルを訓練し,評価による音楽検索タスクの有効性を実証した。

関連論文リスト

Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。 MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。 MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文参考訳（メタデータ） (2025-11-13T13:21:09Z)
Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文参考訳（メタデータ） (2025-09-29T11:10:57Z)
SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning [6.806050368211496]
本稿では,マルチタスク音楽キャプションモデルであるSonicVerseについて紹介する。音楽の特徴を同時に検出しながら、音声入力を言語トークンに変換するプロジェクションベースのアーキテクチャである。
論文参考訳（メタデータ） (2025-06-18T05:51:36Z)
JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、有名なJamendoプラットフォームから20万以上のフリーライセンスの楽器トラックを特徴とする、大規模な音楽キャプチャデータセットである。データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文参考訳（メタデータ） (2025-02-11T11:12:19Z)
Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文参考訳（メタデータ） (2024-10-04T09:33:34Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文参考訳（メタデータ） (2023-09-15T19:31:40Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
Language-Guided Music Recommendation for Video via Prompt Analogies [35.48998901411509]
本稿では,ユーザが自由形式の自然言語で楽曲選択をガイドできるようにし,入力ビデオに楽曲を推薦する方法を提案する。既存の音楽ビデオデータセットは、必要な(ビデオ、音楽)トレーニングペアを提供するが、音楽のテキスト記述は欠落している。
論文参考訳（メタデータ） (2023-06-15T17:58:01Z)
A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文参考訳（メタデータ） (2022-11-21T14:15:43Z)
MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。 MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文参考訳（メタデータ） (2021-06-10T10:13:05Z)
Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文参考訳（メタデータ） (2020-02-01T17:57:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。