論文の概要: TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics
- arxiv url: http://arxiv.org/abs/2509.26329v1
- Date: Tue, 30 Sep 2025 14:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.579192
- Title: TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics
- Title(参考訳): TAU: セマンティクスを超えた文化音理解のためのベンチマーク
- Authors: Yi-Cheng Lin, Yu-Hua Chen, Jia-Kai Dong, Yueh-Hsuan Huang, Szu-Chi Chen, Yu-Chen Chen, Chih-Yao Chen, Yu-Jung Lin, Yu-Ling Chen, Zih-Yu Chen, I-Ning Tsai, Hsiu-Hsuan Wang, Ho-Lam Chung, Ke-Han Lu, Hung-yi Lee,
- Abstract要約: 台湾の日常的な「音符」のベンチマークであるTAU(台湾音声理解)について紹介する。
TAUは、キュレートされたソース、人間の編集、LLMによる質問生成を組み合わせたパイプラインで構築されている。
Gemini 2.5やQwen2-Audioを含む最先端のLALMは、局所的な人間よりはるかに低い性能を示す。
- 参考スコア(独自算出の注目度): 42.251359447020796
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large audio-language models are advancing rapidly, yet most evaluations emphasize speech or globally sourced sounds, overlooking culturally distinctive cues. This gap raises a critical question: can current models generalize to localized, non-semantic audio that communities instantly recognize but outsiders do not? To address this, we present TAU (Taiwan Audio Understanding), a benchmark of everyday Taiwanese "soundmarks." TAU is built through a pipeline combining curated sources, human editing, and LLM-assisted question generation, producing 702 clips and 1,794 multiple-choice items that cannot be solved by transcripts alone. Experiments show that state-of-the-art LALMs, including Gemini 2.5 and Qwen2-Audio, perform far below local humans. TAU demonstrates the need for localized benchmarks to reveal cultural blind spots, guide more equitable multimodal evaluation, and ensure models serve communities beyond the global mainstream.
- Abstract(参考訳): 大規模な音声言語モデルは急速に進歩しているが、ほとんどの評価は、文化的に独特な手がかりを見越して、音声やグローバルソースの音を強調している。
現在のモデルは、コミュニティがすぐに認識するが外部の人々は認識しないような、局所的で意味のないオーディオに一般化できるだろうか?
これを解決するために,台湾の日常的な「音符」のベンチマークであるTAU(台湾音声理解)を提示する。
TAUは、キュレートされたソース、人間の編集、LLMによる質問生成を組み合わせたパイプラインを通じて構築され、702のクリップと1,794の複数選択項目を生成する。
Gemini 2.5やQwen2-Audioを含む最先端のLALMは、局所的な人間よりはるかに低い性能を示す。
TAUは、文化的な盲点を明らかにするためのローカライズされたベンチマークの必要性を示し、より公平なマルチモーダル評価をガイドし、モデルがグローバルな主流を越えてコミュニティにサービスを提供することを保証する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - mSTEB: Massively Multilingual Evaluation of LLMs on Speech and Text Tasks [14.0147704462457]
我々は,大規模言語モデル(LLM)の性能を幅広いタスクで評価するための新しいベンチマークであるmSTEBを紹介する。
我々は,Gemini 2.0 Flash や GPT-4o (Audio) などの主要な LLM や Qwen 2 Audio や Gemma 3 27B といった最先端のオープンモデルの性能を評価する。
論文 参考訳(メタデータ) (2025-06-10T03:15:08Z) - CARE: Multilingual Human Preference Learning for Cultural Awareness [48.760262639641496]
我々は,3,490の文化的特異な質問と31.7kの人的判断応答を含む多言語リソースであるtextbfCAREを紹介する。
質の高いネイティブな嗜好の質が、様々なLMの文化意識をいかに向上させるかを示す。
分析の結果,初期の文化的パフォーマンスが向上したモデルの方がアライメントの恩恵を受けやすいことがわかった。
論文 参考訳(メタデータ) (2025-04-07T14:57:06Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。