論文の概要: CSyMR: Benchmarking Compositional Symbolic Muisc Reasoning With MIR Tool Integration
- arxiv url: http://arxiv.org/abs/2601.11556v1
- Date: Tue, 16 Dec 2025 14:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.754493
- Title: CSyMR: Benchmarking Compositional Symbolic Muisc Reasoning With MIR Tool Integration
- Title(参考訳): CSyMR: MIRツール統合による合成シンボリックなMuisc推論のベンチマーク
- Authors: Boyang Wang, Yash Vishe, Xin Xu, Zachary Novack, Julian McAuley, Junda Wu,
- Abstract要約: CSyMR-Benchは専門家フォーラムと専門試験から126の質問を収集したデータセットである。
各項目は、最終回答に到達するためにいくつかの原子分析を組み合わせることを含む。
ツール強化エージェントは,全ベースラインを一貫して上回り,絶対精度が5~7%向上した。
- 参考スコア(独自算出の注目度): 38.90448885252374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are leveraged in symbolic music reasoning, yet existing benchmarks emphasize isolated knowledge or atomic analyses rather than the integrative compositional reasoning needed to connect musical structures. To address this, we present the Compositional Symbolic Music Reasoning Benchmark (CSyMR-Bench), a curated multiple-choice dataset of 126 questions derived from expert forums and professional examinations. Each item involves combining several atomic analyses to arrive at the final answer. Furthermore, we introduce a tool-augmented agent framework that leverages symbolic music analysis tools from the music21 library to address the challenges posed by CSyMR-Bench. Experiments validate that CSyMR-Bench poses a non-trivial challenge across both community-sourced and exam-style questions, while our tool-augmented agent consistently outperforms all baselines, achieving 5-7% absolute accuracy gains.
- Abstract(参考訳): LLM(Large Language Models)はシンボリック・ミュージック・推論に活用されるが、既存のベンチマークでは音楽構造を接続するのに必要となる積分的な構成的推論よりも、独立した知識や原子分析に重点を置いている。
これを解決するために,専門家フォーラムと専門試験から抽出した126の質問を複数選択して収集したCSyMR-Bench(Composeal Symbolic Music Reasoning Benchmark)を提案する。
各項目は、最終回答に到達するためにいくつかの原子分析を組み合わせることを含む。
さらに,CSyMR-Benchがもたらす課題に対処するために,Music21ライブラリのシンボリック音楽解析ツールを活用したツール拡張エージェントフレームワークを提案する。
実験により,CSyMR-Benchはコミュニティソースおよび試験スタイルの質問に対して,非自明な課題をもたらすことが示された。
関連論文リスト
- On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Towards an AI Musician: Synthesizing Sheet Music Problems for Musical Reasoning [69.78158549955384]
本稿では,ビートやインターバルをプログラム関数として扱うような,コア音楽理論のルールを扱う新しいアプローチを提案する。
このアプローチは、テキストと視覚の両方で検証可能な楽譜の質問を生成する。
SSMR-Benchの評価結果は,楽譜の解釈における重要な役割を浮き彫りにした。
論文 参考訳(メタデータ) (2025-09-04T09:42:17Z) - SaraCoder: Orchestrating Semantic and Structural Cues for Resource-Optimized Repository-Level Code Completion [34.41683042851225]
そこで本研究では,リソース最適化検索拡張手法であるSaraCoderを提案する。
限られたコンテキストウィンドウにおいて、情報の多様性と代表性を最大化する。
我々の研究は、複数の次元にわたる検索結果を体系的に洗練することは、より正確でリソース最適化されたリポジトリレベルのコード補完システムを構築するための新しいパラダイムを提供することを証明している。
論文 参考訳(メタデータ) (2025-08-13T11:56:05Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Decomposing Complex Questions Makes Multi-Hop QA Easier and More
Interpretable [25.676852169835833]
マルチホップQAでは、機械が複数の手がかりと推論を見つけることで複雑な質問に答える必要がある。
本稿では,複雑な質問分解に基づく3段階のフレームワークであるRelation Extractor-Reader and Comparator(RERC)を提案する。
2WikiMultiHopQAデータセットでは、我々のRERCモデルは最も高度なパフォーマンスを達成し、勝利した合同F1スコアはリーダーボード上で53.58である。
論文 参考訳(メタデータ) (2021-10-26T08:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。