Fugu-MT 論文翻訳(概要): PitchBench: Measuring Pitch Hearing in Audio-Language Models

論文の概要: PitchBench: Measuring Pitch Hearing in Audio-Language Models

arxiv url: http://arxiv.org/abs/2605.26176v1
Date: Mon, 25 May 2026 05:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:41.271632
Title: PitchBench: Measuring Pitch Hearing in Audio-Language Models
Title（参考訳）: PitchBench: 音声言語モデルにおけるピッチ聴力の測定
Authors: Milan Liessens Dujardin, Song-Ze Yu, Craver Corbyn Thomas-Smith, David M. Chan, Karina Nguyen,
Abstract要約: 音声モデル(ALM)におけるピッチ聴力を測定する評価スイートであるPitchBenchを紹介する。 PitchBenchは、音の大きさ、音の持続時間、音源、時間伸張、背景雑音、その他の音響条件の異なる配列とコード内の絶対的および相対的なピッチ知覚にまたがる28の実験を含む。ピッチ補聴器の精度は,音源,音符持続時間,表記形式によって著しく変化し,信頼性が低いままである。
参考スコア（独自算出の注目度）: 9.085153261594623
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio-language models (ALMs) are increasingly used in real-world applications that require understanding music, from music tutoring and transcription to captioning, recommendation systems, and music production. More broadly, they are becoming an important component of multimodal AI systems that must reason from sensory input rather than text alone. This makes reliable musical perception a critical prerequisite: if a model cannot accurately hear the structure of sound, it cannot be trusted to reason about, teach, transcribe, or act on audio in the real world. Yet existing benchmarks rarely assess one of the most fundamental musical abilities underlying such perception: pitch hearing. Current evaluations tend to probe pitch hearing only indirectly, through higher-level tasks and often in multiple-choice formats, leaving open how reliably ALMs identify fine-grained pitch across instruments, acoustic conditions, and response formats. We introduce PitchBench, an evaluation suite that systematically measures pitch hearing in ALMs. PitchBench comprises 28 experiments spanning absolute and relative pitch perception within sequences and chords, while varying loudness, note duration, sound source, time stretching, background noise, and other acoustic conditions. Tasks range from identifying individual pitches in isolation to tracking a melodic line within a four-part musical texture. Evaluating frontier ALMs, we find that pitch hearing remains highly unreliable: models perform consistently poorly across settings, with accuracy varying sharply by sound source, note duration, and notation format. Current ALMs do not yet possess stable pitch perception, even for controlled synthetic and instrumental stimuli. Alongside the benchmark, we release PitchBench as a Python package containing the evaluation data and data generation tools to support future work on pitch-aware audio-language modeling.
Abstract（参考訳）: オーディオ言語モデル(ALM)は、音楽のチューターや書き起こしからキャプション、レコメンデーションシステム、音楽制作に至るまで、音楽の理解を必要とする現実世界のアプリケーションでますます使われている。より広くは、テキスト単独ではなく感覚入力から推論する必要があるマルチモーダルAIシステムの重要なコンポーネントになりつつある。モデルが音の構造を正確に聴くことができなければ、実世界での推論、教え、書き起こし、あるいは音響で行動することは信用できない。しかし、既存のベンチマークはそのような知覚の根底にある最も基本的な音楽的能力の1つを評価することは滅多にない。現在の評価では、高レベルなタスクを通し、しばしば複数選択形式のピッチ聴取のみを間接的に探究する傾向があり、ALMが楽器、音響条件、応答フォーマットの細かいピッチを確実に識別する。 ALMにおけるピッチ聴取を体系的に計測する評価スイートであるPitchBenchを紹介する。 PitchBenchは、音の大きさ、音の持続時間、音源、時間伸張、背景雑音、その他の音響条件の異なる配列とコード内の絶対的および相対的なピッチ知覚にまたがる28の実験を含む。タスクは、個別のピッチを個別に識別することから、4つのパートの音楽テクスチャ内のメロディックラインを追跡することまで様々である。音源, 音符持続時間, 表記形式によって精度が著しく変化し, 音程の精度が一定に低下している。現在のALMは、制御された合成刺激や楽器刺激であっても、安定したピッチ知覚を持っていない。ベンチマークと並行して,評価データとデータ生成ツールを含むPythonパッケージとしてPitchBenchをリリースする。

関連論文リスト

Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。統一デコーダは時空間のスムーズなバイアスを示します LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文参考訳（メタデータ） (2026-04-16T02:30:41Z)
HumMusQA: A Human-written Music Understanding QA Benchmark Dataset [2.7761207021407217]
本稿では,音楽教育の専門家による手書き質問320件の新しいデータセットを提案する。このデータセットの使用を実証するため、6つの最先端のLALMをベンチマークし、一様ショートカットに対するロバスト性をテストした。
論文参考訳（メタデータ） (2026-03-29T21:33:07Z)
SCENEBench: An Audio Understanding Benchmark Grounded in Assistive and Industrial Use Cases [27.340743922132067]
SCENEBenchは、背景音の理解、雑音の局所化、言語間音声の理解、発声者認識という4つの現実世界のカテゴリーにまたがる音声理解の幅広い形態をターゲットにしている。このベンチマークスイートの目的は、発言される単語だけでなく、その発言の仕方や音声の非音声成分を評価することである。我々は5つの最先端のLALMを評価し、重要なギャップを見出す: タスクによってパフォーマンスが異なり、いくつかのタスクはランダムな確率以下で実行され、他のタスクは高い精度を達成する。
論文参考訳（メタデータ） (2026-03-10T16:15:12Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
WoW-Bench: Evaluating Fine-Grained Acoustic Perception in Audio-Language Models via Marine Mammal Vocalizations [67.6147632074449]
海洋哺乳動物の発声を用いた低レベルの聴覚知覚と認知を評価するために,WoW-Benchベンチマーク(World-of-Whale benchmark)を導入した。 WoW-Benchは、新しい音を分類するための知覚ベンチマークと、ブルームの分類学にインスパイアされた認知ベンチマークで構成され、音の出来事を記憶、理解、応用、分析する能力を評価する。最先端のLALMを用いた実験は、人間のレベルよりもはるかに低い性能を示し、LALMのより強力な聴覚的接地の必要性を示している。
論文参考訳（メタデータ） (2025-08-28T16:29:46Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文参考訳（メタデータ） (2025-06-14T00:18:44Z)
Evaluation of pretrained language models on music understanding [0.0]
その結果, 言語モデル(LLM)は, 1) アクセシビリティ, 2) 否定をモデル化できないこと, 3) 特定の単語の存在に対する感受性に悩まされていることがわかった。我々はこれらの特性を三重項に基づく精度として定量化し、階層的オントロジーにおいてラベルの相対的類似性をモデル化する能力を評価した。比較的高い精度が報告されているにもかかわらず、6つのモデルすべてに矛盾があることは明らかであり、既製のLLMは使用前に音楽に適応する必要があることを示唆している。
論文参考訳（メタデータ） (2024-09-17T14:44:49Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。