論文の概要: MAC-SLU: Multi-Intent Automotive Cabin Spoken Language Understanding Benchmark
- arxiv url: http://arxiv.org/abs/2512.01603v1
- Date: Mon, 01 Dec 2025 12:23:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.843321
- Title: MAC-SLU: Multi-Intent Automotive Cabin Spoken Language Understanding Benchmark
- Title(参考訳): MAC-SLU: ベンチマークを理解する多言語自動車用キャビンスポイン言語
- Authors: Yuezhang Peng, Chonghao Cai, Ziang Liu, Shuai Fan, Sheng Jiang, Hua Xu, Yuxin Liu, Qiguang Chen, Kele Xu, Yao Li, Sheng Wang, Libo Qin, Xie Chen,
- Abstract要約: Spoken Language Understanding (SLU)は、ダウンストリームタスクを実行するためのユーザセマンティクスを抽出することを目的としている。
最新のLarge Language Models (LLM) とLarge Audio Language Models (LALM) の統一ベンチマークがない。
MAC-SLUは、新しいマルチインテント自動車キャビンスポット言語理解データセットである。
- 参考スコア(独自算出の注目度): 44.95801048019833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU), which aims to extract user semantics to execute downstream tasks, is a crucial component of task-oriented dialog systems. Existing SLU datasets generally lack sufficient diversity and complexity, and there is an absence of a unified benchmark for the latest Large Language Models (LLMs) and Large Audio Language Models (LALMs). This work introduces MAC-SLU, a novel Multi-Intent Automotive Cabin Spoken Language Understanding Dataset, which increases the difficulty of the SLU task by incorporating authentic and complex multi-intent data. Based on MAC-SLU, we conducted a comprehensive benchmark of leading open-source LLMs and LALMs, covering methods like in-context learning, supervised fine-tuning (SFT), and end-to-end (E2E) and pipeline paradigms. Our experiments show that while LLMs and LALMs have the potential to complete SLU tasks through in-context learning, their performance still lags significantly behind SFT. Meanwhile, E2E LALMs demonstrate performance comparable to pipeline approaches and effectively avoid error propagation from speech recognition. Code\footnote{https://github.com/Gatsby-web/MAC\_SLU} and datasets\footnote{huggingface.co/datasets/Gatsby1984/MAC\_SLU} are released publicly.
- Abstract(参考訳): ダウンストリームタスク実行のためのユーザセマンティクス抽出を目的とした音声言語理解(SLU)は,タスク指向対話システムにおいて重要なコンポーネントである。
既存のSLUデータセットは、一般的に十分な多様性と複雑さが欠けており、最新のLarge Language Models(LLM)とLarge Audio Language Models(LALM)の統一ベンチマークがない。
MAC-SLUは,SLUタスクの難易度を高めるために,完全かつ複雑な多言語データを組み込むことで,SLUタスクの難易度を向上する,新しい多言語カービン音声言語理解データセットである。
MAC-SLUをベースとして,インコンテキスト学習,教師付き微調整(SFT),エンドツーエンド(E2E),パイプラインパラダイムなどの手法を網羅した,オープンソースのLLMとLALMの総合ベンチマークを行った。
実験の結果,LLM と LALM は文脈内学習によって SLU タスクを完遂する可能性を秘めているが,その性能は SFT よりもかなり遅れていることがわかった。
一方、E2E LALMはパイプラインアプローチに匹敵する性能を示し、音声認識による誤りの伝播を効果的に回避する。
Code\footnote{https://github.com/Gatsby-web/MAC\_SLU} とデータセット\footnote{huggingface.co/datasets/Gatsby1984/MAC\_SLU} が公開されている。
関連論文リスト
- UniSLU: Unified Spoken Language Understanding from Heterogeneous Cross-Task Datasets [21.47194295019577]
音声言語理解(SLU)は,音声中心のマルチメディアアプリケーションにおいて重要な役割を担っている。
単一アーキテクチャ内で複数のSLUタスクを協調的にモデル化する統合フレームワークUniSLUを提案する。
論文 参考訳(メタデータ) (2025-07-17T09:45:49Z) - Beyond Next Token Probabilities: Learnable, Fast Detection of Hallucinations and Data Contamination on LLM Output Distributions [60.43398881149664]
LLM出力シグナチャの効率的な符号化を訓練した軽量アテンションベースアーキテクチャであるLOS-Netを紹介する。
非常に低い検出レイテンシを維持しながら、さまざまなベンチマークやLLMで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-18T09:04:37Z) - ECLM: Entity Level Language Model for Spoken Language Understanding with Chain of Intent [20.3491383818583]
大きな言語モデル(LLM)は、言語生成と一般的なタスクパフォーマンスにおいて印象的な能力を示している。
本稿では,エンティティ認識タスクとしてスロットフィリングを再構成するエンティティレベル言語モデル(ECLM)フレームワークを提案する。
ECLMはUni-MISのような強力なベースラインをはるかに上回り、MixATISでは3.7%、MixSNIPSでは3.1%を達成している。
論文 参考訳(メタデータ) (2024-03-07T13:30:52Z) - PPTC-R benchmark: Towards Evaluating the Robustness of Large Language
Models for PowerPoint Task Completion [96.47420221442397]
文,意味,多言語レベルでユーザ命令を攻撃することにより,逆ユーザ命令を構築する。
我々は、ロバストネス設定を組み込んだベンチマークを用いて、3つのクローズドソースと4つのオープンソースLCMをテストする。
GPT-4は我々のベンチマークで最も高い性能と強靭性を示す。
論文 参考訳(メタデータ) (2024-03-06T15:33:32Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - ESPnet-SLU: Advancing Spoken Language Understanding through ESPnet [95.39817519115394]
ESPnet-SLUは、エンドツーエンドの音声処理ツールキットであるESPnetのプロジェクトである。
単一のフレームワークによる音声言語理解の迅速な開発を目的として設計されている。
論文 参考訳(メタデータ) (2021-11-29T17:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。