論文の概要: UniverSLU: Universal Spoken Language Understanding for Diverse
Classification and Sequence Generation Tasks with a Single Network
- arxiv url: http://arxiv.org/abs/2310.02973v1
- Date: Wed, 4 Oct 2023 17:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 13:48:03.930825
- Title: UniverSLU: Universal Spoken Language Understanding for Diverse
Classification and Sequence Generation Tasks with a Single Network
- Title(参考訳): UniverSLU:1つのネットワークによる横分類およびシーケンス生成タスクのためのユニバーサル音声言語理解
- Authors: Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan
Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe
- Abstract要約: 我々は様々な音声言語理解タスクを共同で行うモデルを構築した。
個別のプロンプトとして様々なタスクやデータセットの仕様化を行う。
その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。
- 参考スコア(独自算出の注目度): 57.94075999363722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have demonstrated promising outcomes by employing large
language models with multi-tasking capabilities. They utilize prompts to guide
the model's behavior and surpass performance of task-specific models. Motivated
by this, we ask: can we build a single model that jointly perform various
spoken language understanding (SLU) tasks? To address this, we utilize
pre-trained automatic speech recognition (ASR) models and employ various task
and dataset specifiers as discrete prompts. We demonstrate efficacy of our
single multi-task learning (MTL) model "UniverSLU" for 12 different speech
classification and sequence generation tasks across 17 datasets and 9
languages. Results show that UniverSLU achieves competitive performance and
even surpasses task-specific models. We also conduct preliminary investigations
into enabling human-interpretable natural phrases instead of task specifiers as
discrete prompts and test the model's generalization capabilities to new
paraphrases.
- Abstract(参考訳): 近年の研究では、マルチタスク機能を持つ大規模言語モデルを採用することで、有望な結果が得られている。
彼らはプロンプトを利用してモデルの振る舞いをガイドし、タスク固有のモデルのパフォーマンスを上回る。
様々な音声言語理解(SLU)タスクを共同で実行する単一のモデルを構築することができるだろうか?
そこで本研究では,事前学習型自動音声認識(ASR)モデルを用いて,各種タスクおよびデータセット識別器を離散的なプロンプトとして利用する。
我々は17のデータセットと9言語にわたる12の異なる音声分類とシーケンス生成タスクに対して、MTLモデル"UniverSLU"の有効性を実証した。
その結果、UniverSLUは競争性能を達成し、タスク固有のモデルを超えていることがわかった。
また、タスク指定子ではなく、人間解釈可能な自然句を個別のプロンプトとして可能にするための予備的な調査を行い、モデルの一般化機能を新しいパラフレーズにテストする。
関連論文リスト
- Towards Unified Task Embeddings Across Multiple Models: Bridging the Gap
for Prompt-Based Large Language Models and Beyond [18.476364176960868]
既存のタスク埋め込みメソッドは、微調整されたタスク固有の言語モデルに依存している。
本稿では,様々なモデルからタスク埋め込みを調和させる統合タスク埋め込み(FUTE)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T13:13:31Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Musketeer (All for One, and One for All): A Generalist Vision-Language
Model with Task Explanation Prompts [90.30844132765706]
本稿では,全てのタスク(すべて1つ)でパラメータを共同で訓練し,複数のタスク(すべて1つ)で完全に共有するシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
不均一なタスク間の知識の統合は、タスク説明プロンプト(TEP)と呼ばれる新しい機能によって実現される
論文 参考訳(メタデータ) (2023-05-11T17:57:49Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks [39.12025963907317]
Unified-IOは、古典的なコンピュータビジョンタスクにまたがるさまざまなAIタスクを実行するモデルである。
我々は、サポート対象の入力と出力を個別の語彙トークン列に均質化することで、この統一を実現する。
Unified-IOはGRITベンチマークで7つのタスクすべてを実行することができる最初のモデルである。
論文 参考訳(メタデータ) (2022-06-17T17:53:47Z) - Multi Task Learning For Zero Shot Performance Prediction of Multilingual
Models [12.759281077118567]
多言語トランスフォーマーに基づく言語モデルは、言語間のゼロショット転送において驚くほど効果的であることが観察されている。
我々は,タスク上のゼロショット性能をマルチタスク学習問題としてモデル化することにより,タスク上のゼロショット性能を予測するための既存の手法を構築した。
論文 参考訳(メタデータ) (2022-05-12T14:47:03Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Modelling Latent Skills for Multitask Language Generation [15.126163032403811]
マルチタスク条件言語生成のための生成モデルを提案する。
我々の指導的仮説は、共通の潜在スキルの集合が、多くの異なる言語生成タスクの根底にあるというものである。
このタスク埋め込み空間を潜在変数列列列モデルにおける潜在変数としてインスタンス化する。
論文 参考訳(メタデータ) (2020-02-21T20:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。