Fugu-MT 論文翻訳(概要): UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network

論文の概要: UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network

arxiv url: http://arxiv.org/abs/2310.02973v1
Date: Wed, 4 Oct 2023 17:10:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 13:48:03.930825
Title: UniverSLU: Universal Spoken Language Understanding for Diverse Classification and Sequence Generation Tasks with a Single Network
Title（参考訳）: UniverSLU:1つのネットワークによる横分類およびシーケンス生成タスクのためのユニバーサル音声言語理解
Authors: Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe
Abstract要約: 我々は様々な音声言語理解タスクを共同で行うモデルを構築した。個別のプロンプトとして様々なタスクやデータセットの仕様化を行う。その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。
参考スコア（独自算出の注目度）: 57.94075999363722
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have demonstrated promising outcomes by employing large language models with multi-tasking capabilities. They utilize prompts to guide the model's behavior and surpass performance of task-specific models. Motivated by this, we ask: can we build a single model that jointly perform various spoken language understanding (SLU) tasks? To address this, we utilize pre-trained automatic speech recognition (ASR) models and employ various task and dataset specifiers as discrete prompts. We demonstrate efficacy of our single multi-task learning (MTL) model "UniverSLU" for 12 different speech classification and sequence generation tasks across 17 datasets and 9 languages. Results show that UniverSLU achieves competitive performance and even surpasses task-specific models. We also conduct preliminary investigations into enabling human-interpretable natural phrases instead of task specifiers as discrete prompts and test the model's generalization capabilities to new paraphrases.
Abstract（参考訳）: 近年の研究では、マルチタスク機能を持つ大規模言語モデルを採用することで、有望な結果が得られている。彼らはプロンプトを利用してモデルの振る舞いをガイドし、タスク固有のモデルのパフォーマンスを上回る。様々な音声言語理解(SLU)タスクを共同で実行する単一のモデルを構築することができるだろうか? そこで本研究では,事前学習型自動音声認識(ASR)モデルを用いて,各種タスクおよびデータセット識別器を離散的なプロンプトとして利用する。我々は17のデータセットと9言語にわたる12の異なる音声分類とシーケンス生成タスクに対して、MTLモデル"UniverSLU"の有効性を実証した。その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。また、タスク指定子ではなく、人間解釈可能な自然句を個別のプロンプトとして可能にするための予備的な調査を行い、モデルの一般化機能を新しいパラフレーズにテストする。

関連論文リスト

Spoken Language Understanding on Unseen Tasks With In-Context Learning [32.375855980608286]
ランダムなクラスラベルを用いたタスク非依存の微調整のための新しい手法を提案する。そこで本研究では,未知タスクにおける音声テキストLLMの性能が,標準手法よりも大幅に向上していることを示す。
論文参考訳（メタデータ） (2025-05-12T16:38:43Z)
Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model [45.161909551392085]
ニューラルネットワークプルーニングによるマルチタスク音声言語理解モデルにおけるタスク特定作業の探索を提案する。プレナードモデルでは,以前トレーニングしたタスクの性能劣化を最小限に抑えつつ,追加のASRやICデータに適応することに成功した。
論文参考訳（メタデータ） (2024-06-18T06:39:41Z)
SpeechVerse: A Large-scale Generalizable Audio Language Model [38.67969337605572]
SpeechVerseは堅牢なマルチタスクトレーニングおよびカリキュラム学習フレームワークである。学習可能なパラメータの小さなセットを通じて、事前訓練された音声とテキスト基礎モデルを組み合わせる。実験により、我々のマルチタスクSpeechVerseモデルは、従来のタスク固有のベースラインよりも11タスク中9タスクの方が優れていることが判明した。
論文参考訳（メタデータ） (2024-05-14T03:33:31Z)
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts [75.75548749888029]
本稿では,全てのタスクに対してパラメータを共同で訓練し,複数の異種タスク間で完全に共有する視覚言語モデルを提案する。単一のモデルで、Musteteerは単一のタスクでトレーニングされた強いベースラインに匹敵する結果を得る。
論文参考訳（メタデータ） (2023-05-11T17:57:49Z)
SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。 SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文参考訳（メタデータ） (2022-12-20T18:39:59Z)
Improving Task Generalization via Unified Schema Prompt [87.31158568180514]
Unified Promptはフレキシブルでプロンプトの手法で、タスク入力スキーマに従って各タスクの学習可能なプロンプトを自動的にカスタマイズする。異なるタスクスキーマの特徴を維持しながら、タスク間の共有知識をモデル化する。このフレームワークは、8つのタスクタイプから下流に見えない16のタスクに対して、強力なゼロショットと少数ショットのパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-05T15:26:36Z)
Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (2021-10-15T17:08:57Z)
XtremeDistilTransformers: Task Transfer for Task-agnostic Distillation [80.18830380517753]
我々は新しいタスク非依存蒸留フレームワーク XtremeDistilTransformers を開発した。本研究は, 蒸留における複数のソースタスク, 拡張資源, モデルアーキテクチャの伝達可能性について検討する。
論文参考訳（メタデータ） (2021-06-08T17:49:33Z)
Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文参考訳（メタデータ） (2020-02-21T20:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。