Fugu-MT 論文翻訳(概要): KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness

論文の概要: KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness

arxiv url: http://arxiv.org/abs/2604.19782v1
Date: Mon, 30 Mar 2026 06:13:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-04 02:32:14.073361
Title: KoALa-Bench: Evaluating Large Audio Language Models on Korean Speech Understanding and Faithfulness
Title（参考訳）: Koala-Bench: 韓国の音声理解と忠実度に基づく大規模オーディオ言語モデルの評価
Authors: Jinyoung Kim, Hyeongsoo Lim, Eunseo Seo, Minho Jang, Keunwoo Choi, Seungyoun Shin, Ji Won Yoon,
Abstract要約: KoALa-Benchは韓国の音声理解と大規模音声言語モデル(LALM)の発話忠実度を評価するためのベンチマークである。 4つのタスクは, 音声認識, 音声翻訳, 音声質問応答, 続く音声指示などの基本的理解能力を評価する。残りの2つの課題は、複数のLALMが音声のモダリティを完全に活用できないという我々の観察に動機づけられた、音声の忠実さを評価するものである。
参考スコア（独自算出の注目度）: 11.620492203109983
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in large audio language models (LALMs) have enabled multilingual speech understanding. However, benchmarks for evaluating LALMs remain scarce for non-English languages, with Korean being one such underexplored case. In this paper, we introduce KoALa-Bench, a comprehensive benchmark for evaluating Korean speech understanding and speech faithfulness of LALMs. In particular, KoALa-Bench comprises six tasks. Four tasks evaluate fundamental speech understanding capabilities, including automatic speech recognition, speech translation, speech question answering, and speech instruction following, while the remaining two tasks evaluate speech faithfulness, motivated by our observation that several LALMs often fail to fully leverage the speech modality. Furthermore, to reflect Korea-specific knowledge, our benchmark incorporates listening questions from the Korean college scholastic ability test as well as content covering Korean cultural domains. We conduct extensive experiments across six models, including both white-box and black-box ones. Our benchmark, evaluation code, and leaderboard are publicly available at https://ksbench.github.io/Korean-Benchmark/.
Abstract（参考訳）: 大規模音声言語モデル(LALM)の最近の進歩により、多言語音声理解が可能になった。しかし、LALMを評価するためのベンチマークは英語以外の言語では不十分であり、韓国語はそのような未解決の事例である。本稿では,韓国語音声理解とLALMの発話忠実度を評価するための総合ベンチマークであるKoala-Benchを紹介する。特に、KoALa-Benchは6つのタスクから構成される。 4つのタスクは、音声認識、音声翻訳、音声質問応答、音声指示などの基本的理解能力を評価する一方で、残りの2つのタスクは、複数のLALMが音声モダリティを完全に活用できないという私たちの観察に動機付けられている。さらに、韓国固有の知識を反映して、韓国の大学学力試験や韓国の文化ドメインをカバーする内容の聴取質問を取り入れた。ホワイトボックスとブラックボックスの両方を含む6つのモデルにわたる広範な実験を行う。ベンチマーク、評価コード、リーダーボードはhttps://ksbench.github.io/Korean-Benchmark/.comで公開されている。

関連論文リスト

KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models [36.90941464587649]
本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
論文参考訳（メタデータ） (2025-10-17T11:45:15Z)
VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents [53.33704332801441]
大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
論文参考訳（メタデータ） (2025-10-13T07:45:52Z)
Speech Discrete Tokens or Continuous Features? A Comparative Analysis for Spoken Language Understanding in SpeechLLMs [59.230858581944425]
音声処理には、離散トークンと連続的な特徴の2つの主要なアプローチが出現している。自己教師付き学習(SSL)に基づく離散的かつ連続的な特徴を、同じ実験環境下で比較する。その結果, 連続的な特徴は, 様々なタスクにおいて, 離散トークンよりも優れていた。
論文参考訳（メタデータ） (2025-08-25T10:16:07Z)
Polishing Every Facet of the GEM: Testing Linguistic Competence of LLMs and Humans in Korean [8.072947878765941]
KoGEMは韓国のLLMと人間の言語能力を評価するために設計された。 5つの主要なカテゴリと16のサブカテゴリを含む1.5kの多重選択QAペアで構成されている。
論文参考訳（メタデータ） (2025-06-02T01:27:46Z)
EXECUTE: A Multilingual Benchmark for LLM Token Understanding [54.70665106141121]
複数の言語にまたがるテストでは、他の言語の課題が英語のように常に文字レベルにあるとは限らないことが分かる。また、中国語、日本語、韓国語のサブ文字タスクについても検討し、LLMの文字成分に対する理解を評価する。
論文参考訳（メタデータ） (2025-05-23T11:56:48Z)
Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。 ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文参考訳（メタデータ） (2024-12-06T16:34:15Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文参考訳（メタデータ） (2024-03-19T12:21:20Z)
HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文参考訳（メタデータ） (2023-09-06T04:38:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。