論文の概要: UniSLU: Unified Spoken Language Understanding from Heterogeneous Cross-Task Datasets
- arxiv url: http://arxiv.org/abs/2507.12951v1
- Date: Thu, 17 Jul 2025 09:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.438832
- Title: UniSLU: Unified Spoken Language Understanding from Heterogeneous Cross-Task Datasets
- Title(参考訳): UniSLU: 異種クロスタスクデータセットからの統一音声言語理解
- Authors: Zhichao Sheng, Shilin Zhou, Chen Gong, Zhenghua Li,
- Abstract要約: 音声言語理解(SLU)は,音声中心のマルチメディアアプリケーションにおいて重要な役割を担っている。
単一アーキテクチャ内で複数のSLUタスクを協調的にモデル化する統合フレームワークUniSLUを提案する。
- 参考スコア(独自算出の注目度): 21.47194295019577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU) plays a crucial role in speech-centric multimedia applications, enabling machines to comprehend spoken language in scenarios such as meetings, interviews, and customer service interactions. SLU encompasses multiple tasks, including Automatic Speech Recognition (ASR), spoken Named Entity Recognition (NER), and spoken Sentiment Analysis (SA). However, existing methods often rely on separate model architectures for individual tasks such as spoken NER and SA, which increases system complexity, limits cross-task interaction, and fails to fully exploit heterogeneous datasets available across tasks. To address these limitations, we propose UniSLU, a unified framework that jointly models multiple SLU tasks within a single architecture. Specifically, we propose a unified representation for diverse SLU tasks, enabling full utilization of heterogeneous datasets across multiple tasks. Built upon this representation, we propose a unified generative method that jointly models ASR, spoken NER, and SA tasks, enhancing task interactions and enabling seamless integration with large language models to harness their powerful generative capabilities. Extensive experiments on public SLU datasets demonstrate the effectiveness of our approach, achieving superior SLU performance compared to several benchmark methods, making it well-suited for real-world speech-based multimedia scenarios. We will release all code and models at github to facilitate future research.
- Abstract(参考訳): 音声言語理解(SLU)は、音声中心のマルチメディアアプリケーションにおいて重要な役割を果たす。
SLUは、自動音声認識(ASR)、名前付きエンティティ認識(NER)、音声知覚分析(SA)など、複数のタスクを含む。
しかし、既存の手法は、音声NERやSAのような個々のタスクに対して別々のモデルアーキテクチャに依存しており、それによってシステムの複雑さが増大し、タスク間のインタラクションが制限され、タスク間で利用可能な異種データセットを完全に活用することができない。
これらの制約に対処するため、単一のアーキテクチャ内で複数のSLUタスクを協調的にモデル化する統合フレームワークUniSLUを提案する。
具体的には、多様なSLUタスクに対する統一表現を提案し、複数のタスクをまたいだ異種データセットのフル活用を可能にする。
この表現に基づいて、ASR、音声NER、SAタスクを協調的にモデル化し、タスク間の相互作用を強化し、大きな言語モデルとのシームレスな統合を実現し、その強力な生成能力を活用できる統一的な生成手法を提案する。
公開SLUデータセットの大規模な実験により,提案手法の有効性が実証され,複数のベンチマーク手法と比較して優れたSLU性能が得られた。
将来の研究を促進するため、すべてのコードとモデルをgithubでリリースします。
関連論文リスト
- UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - CroPrompt: Cross-task Interactive Prompting for Zero-shot Spoken Language Understanding [40.75828713474074]
音声言語理解のためのクロスタスク対話型プロンプト(CroPrompt)を提案する。
CroPromptは、SLU内の関連タスク間の情報交換をインタラクティブに活用することを可能にする。
また、インテント情報注入によるエラー伝播を軽減するために、マルチタスクの自己整合機構を導入する。
論文 参考訳(メタデータ) (2024-06-15T04:54:56Z) - Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models [41.524192769406945]
クロスドキュメントイベントコア参照解決(CDECR)では、複数のドキュメントにまたがって、同じ実世界のイベントを参照するイベントをクラスタリングする。
既存のアプローチでは、イベント参照のコンテキスト間の互換性に対処するために、小さな言語モデル(SLM)の微調整を利用している。
本稿では,CDECR の協調的アプローチを提案し,汎用性のある LLM とタスク固有の SLM の両機能を活用している。
論文 参考訳(メタデータ) (2024-06-04T09:35:47Z) - Towards Spoken Language Understanding via Multi-level Multi-grained Contrastive Learning [50.1035273069458]
音声言語理解(SLU)はタスク指向対話システムにおける中核的なタスクである。
本稿では,発話レベル,スロットレベル,単語レベルを含む3段階のコントラスト学習を実現するためのマルチレベルMMCLフレームワークを提案する。
本フレームワークは,2つの公開マルチインテリジェントSLUデータセットに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2024-05-31T14:34:23Z) - Do Large Language Model Understand Multi-Intent Spoken Language ? [5.494472119991781]
この研究は、多言語言語理解(SLU)におけるLarge Language Models(LLM)の利用において、大きなブレークスルーを示すものである。
本稿では,マルチインテリジェントSLUアプリケーションにおけるエンティティスロットの利用について再検討する。
本稿では,複雑なマルチインテント通信の分析と解釈を増幅するために,サブインテントインストラクション(SII)の概念を導入する。
論文 参考訳(メタデータ) (2024-03-07T13:30:52Z) - LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
多様なマルチモーダルタスクを統一する新しいフレームワークである textbfLLMBind を導入する。
LLMBindはMixture-of-Experts (MoE) Large Language Model (LLM)を利用してマルチモーダル入力を処理し、タスク固有のトークンを生成する。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for
Natural Language Understanding in Task-Oriented Dialogue [115.32009638844059]
英語のみのNLU++データセットを拡張して、手動による翻訳を高、中、低リソース言語に含めます。
Multi3NLU++はそのマルチインテント特性のため、複雑で自然なユーザ目標を表現している。
我々はMulti3NLU++を用いて、インテント検出やスロットラベリングといった自然言語理解タスクに対して、最先端の多言語モデルをベンチマークする。
論文 参考訳(メタデータ) (2022-12-20T17:34:25Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。