論文の概要: PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark
- arxiv url: http://arxiv.org/abs/2603.14456v1
- Date: Sun, 15 Mar 2026 16:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.81703
- Title: PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark
- Title(参考訳): PARSA-Bench:ペルシアの総合的なオーディオ言語モデルベンチマーク
- Authors: Mohammad Javad Ranjbar Kalahroodi, Mohammad Amini, Parmis Bathayan, Heshaam Faili, Azadeh Shakery,
- Abstract要約: PARSA-Benchはペルシア語と文化に関する大規模なオーディオ言語モデルを評価するための最初のベンチマークである。
16のタスクと8000以上のサンプルで構成されており、音声理解、パラ言語分析、文化的な音声理解にまたがっている。
詩のメーターやスタイル検出、ペルシア音楽の伝統的な理解、コードスイッチング検出など、新たに10のタスクが導入されている。
- 参考スコア(独自算出の注目度): 4.352747055546777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persian poses unique audio understanding challenges through its classical poetry, traditional music, and pervasive code-switching - none captured by existing benchmarks. We introduce PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), the first benchmark for evaluating large audio-language models on Persian language and culture, comprising 16 tasks and over 8,000 samples across speech understanding, paralinguistic analysis, and cultural audio understanding. Ten tasks are newly introduced, including poetry meter and style detection, traditional Persian music understanding, and code-switching detection. Text-only baselines consistently outperform audio counterparts, suggesting models may not leverage audio-specific information beyond what transcription alone provides. Culturally-grounded tasks expose a qualitatively distinct failure mode: all models perform near random chance on vazn detection regardless of scale, suggesting prosodic perception remains beyond the reach of current models. The dataset is publicly available at https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench
- Abstract(参考訳): ペルシア語は、古典詩、伝統音楽、広範にわたるコードスイッチングを通じて独自の音声理解の課題を提起している。
我々は,ペルシャ語と文化に関する大規模音声モデルを評価する最初のベンチマークであるPARSA-Bench(Persian Audio Reasoning and Speech Assessment Benchmark)を紹介した。
詩のメーターやスタイル検出、ペルシア音楽の伝統的な理解、コードスイッチング検出など、新たに10のタスクが導入されている。
テキストのみのベースラインは一貫してオーディオよりも優れており、モデルが書き起こしのみが提供するもの以上のオーディオ固有の情報を活用できない可能性があることを示唆している。
すべてのモデルは、スケールに関係なく、ヴァズン検出においてほぼランダムな確率で実行され、現在のモデルの到達範囲を超えて韻律的知覚が残っていることを示唆する。
データセットはhttps://huggingface.co/datasets/MohammadJRanjbar/PARSA-Benchで公開されている。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MECAT: A Multi-Experts Constructed Benchmark for Fine-Grained Audio Understanding Tasks [38.51162036564078]
MECATは、細粒度音声理解タスクのためのマルチエキスパートコンストラクトベンチマークである。
専門的な専門家モデルからの分析を、Chain-of-Thoughtの大規模言語モデル推論と統合する。
また,最先端オーディオモデルの包括的評価について述べる。
論文 参考訳(メタデータ) (2025-07-31T12:47:43Z) - TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining [3.5570874721859016]
音声録音におけるテキスト記述と時間領域の整合を学習するフレームワイドコントラスト学習手法を提案する。
我々のモデルは,AudioSet Strongベンチマークで評価した場合,グローバルキャプションでのみ訓練されたモデルと比較して,時間的テキスト・オーディオアライメント能力が優れている。
論文 参考訳(メタデータ) (2025-05-12T14:30:39Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。