論文の概要: ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence
- arxiv url: http://arxiv.org/abs/2604.20719v1
- Date: Wed, 22 Apr 2026 16:06:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.214577
- Title: ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence
- Title(参考訳): ONOTE:エキスパートレベルの音楽インテリジェンスのためのOmnimodal Notation Processingのベンチマーク
- Authors: Menghe Ma, Siqing Wei, Yuecheng Xing, Yaheng Wang, Fanhong Meng, Peijun Han, Luu Anh Tuan, Haoran Luo,
- Abstract要約: ONOTEは、様々な表記システムにまたがる主観的スコアのバイアスを取り除くために、標準ピッチ投影において決定論的パイプラインを用いたマルチフォーマットのベンチマークである。
先行する一様モデルの評価は、知覚的精度と音楽理論的理解の根本的な切り離しを露呈する。
- 参考スコア(独自算出の注目度): 4.505342761520748
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Omnimodal Notation Processing (ONP) represents a unique frontier for omnimodal AI due to the rigorous, multi-dimensional alignment required across auditory, visual, and symbolic domains. Current research remains fragmented, focusing on isolated transcription tasks that fail to bridge the gap between superficial pattern recognition and the underlying musical logic. This landscape is further complicated by severe notation biases toward Western staff and the inherent unreliability of "LLM-as-a-judge" metrics, which often mask structural reasoning failures with systemic hallucinations. To establish a more rigorous standard, we introduce ONOTE, a multi-format benchmark that utilizes a deterministic pipeline--grounded in canonical pitch projection--to eliminate subjective scoring biases across diverse notation systems. Our evaluation of leading omnimodal models exposes a fundamental disconnect between perceptual accuracy and music-theoretic comprehension, providing a necessary framework for diagnosing reasoning vulnerabilities in complex, rule-constrained domains.
- Abstract(参考訳): Omnimodal Notation Processing (ONP) は、聴覚領域、視覚領域、シンボル領域にまたがる厳密で多次元のアライメントのために、Omnimodal AIのユニークなフロンティアである。
現在の研究は断片化されており、表面パターン認識と基礎となる音楽論理とのギャップを埋めることができない独立した転写タスクに焦点を当てている。
この状況は、西洋のスタッフに対する厳しい表記バイアスと、体系的な幻覚を伴う構造的推論の失敗を隠蔽する"LLM-as-a-judge"メトリクスの固有の信頼性の欠如によってさらに複雑である。
より厳密な基準を確立するため,様々な表記システムにまたがる主観的スコアリングバイアスを除去するために,正準ピッチ投影を基底とした決定論的パイプラインを用いたマルチフォーマットベンチマークであるONOTEを導入する。
本研究は,一様モデルを用いた評価により,知覚精度と音楽理論的理解の根本的な相違が明らかとなり,複雑な規則制約領域における推論脆弱性の診断に必要となる枠組みを提供する。
関連論文リスト
- Chain of Modality: From Static Fusion to Dynamic Orchestration in Omni-MLLMs [84.3271821505699]
カオス・オブ・モダリティ(Chain of Modality, CoM)は、マルチモーダル融合を受動的結合から動的オーケストレーションに移行するエージェントフレームワークである。
CoMはトレーニングフリーまたはデータ効率のSFT設定で動作し、様々なベンチマークで堅牢で一貫した一般化を実現する。
論文 参考訳(メタデータ) (2026-04-16T01:21:14Z) - A Progressive Visual-Logic-Aligned Framework for Ride-Hailing Adjudication [19.51385161254594]
RideJudgeは、一般的な視覚的セマンティクスと厳密な顕在的プロトコルの間のギャップを埋めるプログレッシブなビジュアル論理指向フレームワークである。
我々のフレームワークは88.41%の精度を達成し、32Bスケールのベースラインを超え、解釈可能な適応のための新しい標準を確立する。
論文 参考訳(メタデータ) (2026-03-18T03:46:30Z) - OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection [9.097817457018179]
ゼロショット異常検出(ZSAD)のためのウェーブレット強化実験用混合学習法を提案する。
変分オートエンコーダは、グローバルな意味表現をモデル化し、それらを多様な異常パターンへの適応性を高めるプロンプトに統合するために用いられる。
14の産業用および医療用データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-06T14:16:06Z) - ABounD: Adversarial Boundary-Driven Few-Shot Learning for Multi-Class Anomaly Detection [24.691181948844136]
ABversaounDは、マルチクラス異常検出のためのAdrial Boundary-Driven few-shot Learningフレームワークである。
意味論的概念学習と意思決定境界形成を統合している。
MVTec-ADとVisAデータセットの実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-11-27T13:18:22Z) - Beyond Human-prompting: Adaptive Prompt Tuning with Semantic Alignment for Anomaly Detection [20.650740481670276]
textbfAdaptive textbfPrompt textbfTuning with semantic alignment for Anomaly Detection (APT)を提案する。
APTは、ノイズ摂動を伴う自己生成異常サンプルを使用して、異なるシナリオでコンテキスト依存異常をキャプチャする学習可能なプロンプトを訓練する。
本システムは,複数のベンチマークデータセットに対して,先行知識を必要とせず,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-08-22T07:26:56Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。