論文の概要: KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs
- arxiv url: http://arxiv.org/abs/2605.27984v1
- Date: Wed, 27 May 2026 05:19:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.766162
- Title: KVoiceBench, KOpenAudioBench, and KMMAU: Agent-Driven Korean Speech Benchmarks for Evaluating SpeechLMs
- Title(参考訳): KVoiceBench, KOpenAudioBench, KMMAU: エージェント駆動韓国語音声ベンチマークによる音声フィルムの評価
- Authors: Haechan Kim, Seungjun Chung, Inkyu Park, Jihoo Lee, Jonghyun Lee,
- Abstract要約: 本稿では,SpeechLM評価のための2つのヒューマンエージェント・ベンチマーク・コンストラクション・フレームワークを提案する。
ソース言語SpkenQAベンチマークをターゲット言語SpkenQAベンチマークに、ターゲット言語ASRコーパスをオーディオ理解ベンチマークに変換する。
これらのフレームワークを用いて,韓国語音声理解のためのKVoiceBenchとKOpenAudioBenchと韓国語音声理解のためのKMMAUの3つのベンチマークを構築し,公開する。
- 参考スコア(独自算出の注目度): 7.195547595036643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech language models (SpeechLMs) have achieved substantial progress by extending large language models (LLMs) to the speech modality. However, SpeechLM evaluation remains heavily centered on English, limiting reliable assessment of multilingual speech capabilities. Straightforward benchmark transfer through ASR, translation, normalization, and TTS can corrupt language-specific instructions, answer constraints, and spoken forms; for audio understanding, transferring source-language audio also fails to preserve target-language speaker attributes, accents, and paralinguistic properties. To address these limitations, we propose two human-agent benchmark-construction frameworks: one transfers source-language SpokenQA benchmarks into target-language SpokenQA benchmarks, and the other converts target-language ASR corpora into audio understanding benchmarks using transcriptions and speaker metadata. Using these frameworks, we construct and publicly release three Korean speech benchmarks: KVoiceBench and KOpenAudioBench for Korean SpokenQA, and KMMAU for Korean audio understanding, comprising 12,345 samples in total. We evaluate eight recent SpeechLMs and find that English-Korean performance gaps vary substantially across models and task families, and that SpokenQA and audio understanding rankings diverge, revealing complementary weaknesses invisible to English-only evaluation.
- Abstract(参考訳): 音声言語モデル(SpeechLMs)は,大規模言語モデル(LLMs)を音声モダリティに拡張することで,大幅な進歩を遂げている。
しかし、SpeechLMの評価は英語に重点を置いており、多言語音声能力の信頼性を制限している。
ASR、翻訳、正規化、TSによるストレートフォワードベンチマーク転送は、言語固有の命令、応答制約、音声フォームを破損させる可能性がある。
これらの制約に対処するため、我々は2つの人間エージェントベンチマーク構築フレームワークを提案する。一方はソース言語SpkenQAベンチマークをターゲット言語SpkenQAベンチマークに変換し、他方はターゲット言語ASRコーパスを書き起こしと話者メタデータを用いて音声理解ベンチマークに変換する。
これらのフレームワークを用いて,韓国語音声理解のためのKVoiceBenchとKOpenAudioBenchと韓国語音声理解のためのKMMAUの3つのベンチマークを構築し,公開する。
我々は,近年の8つのSpeechLMを評価し,英語と韓国語のパフォーマンスギャップがモデルやタスクファミリーによって大きく異なること,音声理解ランキングと音声理解ランキングがばらつき,英語のみの評価では見つからない相補的弱点が浮き彫りにされていることを発見した。
関連論文リスト
- MUSCAT: MUltilingual, SCientific ConversATion Benchmark [60.87925076316812]
多言語音声技術の目標は、異なる言語を話す個人間のシームレスなコミュニケーションを容易にすることである。
この経験を生み出すためには、音声技術は、混合多言語入力、特定の語彙、コードスイッチングといったいくつかの課題に対処する必要がある。
本稿では,これらの課題に対処できるかどうかを問う,現在の音声認識(ASR)システムを評価するための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-04-17T10:39:01Z) - KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness [11.620492203109983]
KoALa-Benchは韓国の音声理解と大規模音声言語モデル(LALM)の発話忠実度を評価するためのベンチマークである。
4つのタスクは, 音声認識, 音声翻訳, 音声質問応答, 続く音声指示などの基本的理解能力を評価する。
残りの2つの課題は、複数のLALMが音声のモダリティを完全に活用できないという我々の観察に動機づけられた、音声の忠実さを評価するものである。
論文 参考訳(メタデータ) (2026-03-30T06:13:27Z) - Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations [21.050704978484784]
我々は,Global MMLU Liteに基づく音声強調ベンチマークであるBiasInEarデータセットを構築し,リリースする。
言語的(言語とアクセント)、人口統計学的(ジェンダー)、構造的(選択順序)摂動の9つの代表モデルを評価する。
以上の結果から,MLLMは人口統計学的要因に対して比較的頑健であるが,言語や選択肢の順序に非常に敏感であることが明らかとなり,既存の構造バイアスを増幅する可能性が示唆された。
論文 参考訳(メタデータ) (2026-02-01T05:34:34Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - VoiceAgentBench: Are Voice Assistants ready for agentic tasks? [5.639970295197759]
本稿では,現実的な音声エージェント設定におけるSpeechLMの評価ベンチマークであるVoiceAgentBenchを紹介する。
インドの文脈に根ざした5,500以上の合成音声クエリで構成されている。
ツール選択の正確性、構造的整合性、ツールの実行の正しさを測定する。
論文 参考訳(メタデータ) (2025-10-09T09:11:38Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。