論文の概要: Exploring GPT's Ability as a Judge in Music Understanding
- arxiv url: http://arxiv.org/abs/2501.13261v1
- Date: Wed, 22 Jan 2025 22:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:54:56.601697
- Title: Exploring GPT's Ability as a Judge in Music Understanding
- Title(参考訳): 音楽理解におけるGPTの判断力を探る
- Authors: Kun Fang, Ziyu Wang, Gus Xia, Ichiro Fujinaga,
- Abstract要約: 我々は,大規模言語モデルに対して,音楽情報検索の問題を解決するために,系統的なプロンプトエンジニアリングアプローチを用いる。
音楽データをシンボリック入力に変換し、3つの重要なMIRタスクにおいて、アノテーションエラーを検出するLLMの能力を評価する。
提案手法は,提案する楽曲概念とLLMの楽曲推論の整合性を評価するために提案される。
- 参考スコア(独自算出の注目度): 6.5178028874627705
- License:
- Abstract: Recent progress in text-based Large Language Models (LLMs) and their extended ability to process multi-modal sensory data have led us to explore their applicability in addressing music information retrieval (MIR) challenges. In this paper, we use a systematic prompt engineering approach for LLMs to solve MIR problems. We convert the music data to symbolic inputs and evaluate LLMs' ability in detecting annotation errors in three key MIR tasks: beat tracking, chord extraction, and key estimation. A concept augmentation method is proposed to evaluate LLMs' music reasoning consistency with the provided music concepts in the prompts. Our experiments tested the MIR capabilities of Generative Pre-trained Transformers (GPT). Results show that GPT has an error detection accuracy of 65.20%, 64.80%, and 59.72% in beat tracking, chord extraction, and key estimation tasks, respectively, all exceeding the random baseline. Moreover, we observe a positive correlation between GPT's error finding accuracy and the amount of concept information provided. The current findings based on symbolic music input provide a solid ground for future LLM-based MIR research.
- Abstract(参考訳): テキストベースのLarge Language Models(LLMs)の最近の進歩とマルチモーダルな知覚データ処理能力の強化により,音楽情報検索(MIR)の課題に対処する上でのそれらの適用性を検討した。
本稿では, LLMのシステム的プロンプトエンジニアリング手法を用いて, MIR問題の解法を提案する。
我々は、音楽データをシンボリック入力に変換し、ビートトラッキング、コード抽出、キー推定という3つの重要なMIRタスクにおいて、アノテーションエラーを検出するLLMの能力を評価する。
提案手法は,提案する楽曲概念とLLMの楽曲推論の整合性を評価するために提案される。
本実験は,GPT(Generative Pre-trained Transformer)のMIR機能について検討した。
その結果, GPTの誤り検出精度は65.20%, 64.80%, 59.72%, ビートトラッキング, コード抽出, キー推定タスクがランダムベースラインを超えていることがわかった。
さらに,GPTの誤差検出精度と提供された概念情報の量との正の相関を観察する。
シンボリック・ミュージック・インプットに基づく現在の知見は、将来のLCMベースのMIR研究の基盤となる。
関連論文リスト
- Invar-RAG: Invariant LLM-aligned Retrieval for Better Generation [43.630437906898635]
Invar-RAGと呼ばれる2段階ファインチューニングアーキテクチャを提案する。
検索段階では、LORAに基づく表現学習を統合してLLMベースの検索器を構築する。
生成段階では、抽出した情報に基づいて回答を生成する際のLCM精度を向上させるための精細調整法が用いられる。
論文 参考訳(メタデータ) (2024-11-11T14:25:37Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とAIのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Diver: Large Language Model Decoding with Span-Level Mutual Information Verification [13.378881059577635]
Diverは、スパンレベルのPMI検証を通じてLLMデコーディングを強化する新しいアプローチである。
提案手法を様々な下流タスクで評価し,Diverが既存のデコード手法を性能と汎用性の両方で著しく上回っていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-06-04T09:02:22Z) - HARGPT: Are LLMs Zero-Shot Human Activity Recognizers? [9.414529772034985]
我々は,Large Language Models (LLM) が生のIMUデータを理解し,ゼロショットで人間の活動認識タスクを実行できることを示す。
我々は、GPT4上のHARGPTを、クラス間の類似性の異なる2つの公開データセットを用いてベンチマークし、従来の機械学習と最先端の深い分類モデルの両方に基づいて、様々なベースラインを比較した。
注目すべきは、LLMは生のIMUデータから人間の活動を認識し、両方のデータセットのベースラインを一貫して上回っていることだ。
論文 参考訳(メタデータ) (2024-03-05T07:34:51Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible
Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。
本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。
本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文 参考訳(メタデータ) (2024-01-16T08:08:01Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。