論文の概要: Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model
- arxiv url: http://arxiv.org/abs/2512.06999v1
- Date: Sun, 07 Dec 2025 21:06:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.63142
- Title: Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model
- Title(参考訳): マルチモーダル大ファンデーションモデルに基づく歌声人気度評価
- Authors: Zihao Wang, Ruibin Yuan, Ziqi Geng, Hengjia Li, Xingwei Qu, Xinyi Li, Songye Chen, Haoying Fu, Roger B. Dannenberg, Kejun Zhang,
- Abstract要約: Sing-MDは, 呼吸制御, 音質, 感情表現, 発声技術という4次元の専門家によって注釈付けされた大規模データセットである。
次に,マルチモーダル大言語モデル(MLLM)の完全長歌の分析におけるメモリ制限に対処し,VocalVerseを提案する。
第3に、自動計量不足に対処するために、モデルが知覚的に有効なランキングを生成する能力を評価するH-TPRベンチマークを確立する。
- 参考スコア(独自算出の注目度): 28.382926227472026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated singing assessment is crucial for education and entertainment. However, existing systems face two fundamental limitations: reliance on reference tracks, which stifles creative expression, and the simplification of complex performances into non-diagnostic scores based solely on pitch and rhythm. We advocate for a shift from discriminative to descriptive evaluation, creating a complete ecosystem for reference-free, multi-dimensional assessment. First, we introduce Sing-MD, a large-scale dataset annotated by experts across four dimensions: breath control, timbre quality, emotional expression, and vocal technique. Our analysis reveals significant annotation inconsistencies among experts, challenging the validity of traditional accuracy-based metrics. Second, addressing the memory limitations of Multimodal Large Language Models (MLLMs) in analyzing full-length songs, we propose VocalVerse. This efficient hybrid architecture leverages a lightweight acoustic encoder to model global performance features and long-term dependencies. Third, to address automated metric shortcomings, we establish the H-TPR (Human-in-the-loop Tiered Perceptual Ranking) benchmark, which evaluates a model's ability to generate perceptually valid rankings rather than predicting noisy ground-truth scores.
- Abstract(参考訳): 自動歌唱アセスメントは教育とエンターテイメントにとって不可欠である。
しかし、既存のシステムは、創造的な表現を阻害する参照トラックへの依存と、ピッチとリズムのみに基づく非診断的なスコアへの複雑なパフォーマンスの単純化という、2つの基本的な制限に直面している。
我々は差別的評価から記述的評価への転換を提唱し、参照のない多次元評価のための完全なエコシステムを創出する。
まず、呼吸制御、音質、感情表現、発声技法の4つの分野の専門家によって注釈付けされた大規模なデータセットであるSing-MDを紹介する。
本分析は,従来の精度に基づく指標の有効性に挑戦する専門家の間で,重要な注釈の不整合を明らかにした。
次に,マルチモーダル大言語モデル(MLLM)の完全長歌の分析におけるメモリ制限に対処し,VocalVerseを提案する。
この効率的なハイブリッドアーキテクチャは、軽量音響エンコーダを利用して、グローバルなパフォーマンス特徴と長期的依存関係をモデル化する。
第3に,H-TPR (Human-in-the-loop Tiered Perceptual Ranking) ベンチマークを作成した。
関連論文リスト
- Neural Models and Language Model Prompting for the Multidimensional Evaluation of Open-Ended Conversations [1.0006801729628605]
我々は,対話レベル,次元別スコアを予測するモデルを開発した。
本研究は,言語モデル(LM)をプロンプトとして活用し,エンコーダに基づく分類と回帰モデルを訓練する2つの主要な戦略に従う。
テストセットのパフォーマンスは低下するが、テストセットには、トレインおよびバリデーションセットに関するいくつかのディメンションに対して、かなり異なるスコア範囲のアノテーションが含まれていることに注意する必要がある。
論文 参考訳(メタデータ) (2025-08-31T13:24:05Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - KnowDR-REC: A Benchmark for Referring Expression Comprehension with Real-World Knowledge [1.5833270109954136]
本研究では,実世界の知識に基づいて構築されたKnowDR-RECを提案する。
我々は、KnowDR-REC上で16の最先端マルチモーダルモデルを評価し、既存のMLLMが知識駆動型視覚接地作業に苦戦していることを示す実験結果を得た。
論文 参考訳(メタデータ) (2025-08-12T19:43:44Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - CAFES: A Collaborative Multi-Agent Framework for Multi-Granular Multimodal Essay Scoring [15.197083495600998]
CAFESはAES用に特別に設計された初の協調型マルチエージェントフレームワークである。
それは3つの特殊エージェントを編成する: 迅速で特性特異的な評価のためのイニシャル・スコーラー、詳細なエビデンスに基づく強さを集約するフィードバックプールマネージャ、このフィードバックに基づいてスコアを反復的に洗練して人間のアライメントを強化するリフレクティブ・スコーラー。
論文 参考訳(メタデータ) (2025-05-20T06:05:56Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。