論文の概要: TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASR
- arxiv url: http://arxiv.org/abs/2407.04444v2
- Date: Tue, 08 Oct 2024 11:09:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:26:51.811288
- Title: TokenVerse: Towards Unifying Speech and NLP Tasks via Transducer-based ASR
- Title(参考訳): TokenVerse:Transducer-based ASRによる音声とNLPタスクの統合を目指して
- Authors: Shashi Kumar, Srikanth Madikeri, Juan Zuluaga-Gomez, Iuliia Thorbecke, Esaú Villatoro-Tello, Sergio Burdisso, Petr Motlicek, Karthik Pandia, Aravind Ganapathiraju,
- Abstract要約: TokenVerseは、複数のタスクを処理するように設計された単一のTransducerベースのモデルである。
ASRモデルトレーニング中にタスク固有のトークンを参照テキストに統合することで実現される。
実験の結果,提案手法は相対的なWERにおいて最大7.7%向上することがわかった。
- 参考スコア(独自算出の注目度): 3.717584661565119
- License:
- Abstract: In traditional conversational intelligence from speech, a cascaded pipeline is used, involving tasks such as voice activity detection, diarization, transcription, and subsequent processing with different NLP models for tasks like semantic endpointing and named entity recognition (NER). Our paper introduces TokenVerse, a single Transducer-based model designed to handle multiple tasks. This is achieved by integrating task-specific tokens into the reference text during ASR model training, streamlining the inference and eliminating the need for separate NLP models. In addition to ASR, we conduct experiments on 3 different tasks: speaker change detection, endpointing, and NER. Our experiments on a public and a private dataset show that the proposed method improves ASR by up to 7.7% in relative WER while outperforming the cascaded pipeline approach in individual task performance. Our code is publicly available: https://github.com/idiap/tokenverse-unifying-speech-nlp
- Abstract(参考訳): 従来の音声からの会話インテリジェンスでは、音声活動の検出、ダイアリゼーション、転写などのタスクと、セマンティックエンドポイントや名前付きエンティティ認識(NER)といったタスクのための異なるNLPモデルによるその後の処理を含むカスケードパイプラインが使用される。
本稿では,複数のタスクを処理するために設計された単一TransducerベースのモデルであるTokenVerseを紹介する。
これは、ASRモデルのトレーニング中にタスク固有のトークンを参照テキストに統合し、推論を合理化し、別個のNLPモデルの必要性を排除することで実現される。
ASRに加えて、話者変化検出、終端検出、NERという3つの異なるタスクについて実験を行う。
公開およびプライベートデータセットを用いた実験の結果,提案手法は相対的なWERにおいて最大7.7%向上し,個々のタスク性能においてカスケードパイプラインアプローチよりも優れていた。
https://github.com/idiap/tokenverse-unifying-speech-nlp
関連論文リスト
- RepVF: A Unified Vector Fields Representation for Multi-task 3D Perception [64.80760846124858]
本稿では,様々な知覚タスクの表現を調和させる新しい統一表現RepVFを提案する。
RepVFは、ベクトル場を通じてシーン内の異なるターゲットの構造を特徴付け、シングルヘッドでマルチタスクの学習モデルを可能にする。
RepVF 上に構築された RFTR は,タスク間の固有性を利用したネットワークである。
論文 参考訳(メタデータ) (2024-07-15T16:25:07Z) - Audio-AdapterFusion: A Task-ID-free Approach for Efficient and
Non-Destructive Multi-task Speech Recognition [6.029887290228037]
マルチタスクASRにおける単一タスクアダプタを結合する3つの新しいタスクIDフリー手法を提案する。
提案手法は,完全微調整に比べて平均 WER 改善率8% を達成することができ,タスクID アダプタルーティングと同等である。
論文 参考訳(メタデータ) (2023-10-17T21:21:40Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - On Steering Multi-Annotations per Sample for Multi-Task Learning [79.98259057711044]
マルチタスク学習の研究はコミュニティから大きな注目を集めている。
目覚ましい進歩にもかかわらず、異なるタスクを同時に学習するという課題はまだ検討されていない。
従来の研究は、異なるタスクから勾配を修正しようとするが、これらの手法はタスク間の関係の主観的な仮定を与え、修正された勾配はより正確でないかもしれない。
本稿では,タスク割り当てアプローチによってこの問題に対処する機構であるタスク割当(STA)を紹介し,各サンプルをランダムにタスクのサブセットに割り当てる。
さらなる進展のために、我々は全てのタスクを反復的に割り当てるためにInterleaved Task Allocation(ISTA)を提案する。
論文 参考訳(メタデータ) (2022-03-06T11:57:18Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - Weighted Training for Cross-Task Learning [71.94908559469475]
クロスタスク学習のための重み付きトレーニングアルゴリズムであるTarget-Aware Weighted Training (TAWT)を紹介する。
TAWTは実装が容易で、計算効率が高く、ハイパーパラメータチューニングがほとんど必要とせず、漸近的でない学習理論の保証を享受できることを示す。
副産物として、提案された表現に基づくタスク距離は、クロスタスク学習のいくつかの重要な側面について理論的に原則化された方法で推論することができる。
論文 参考訳(メタデータ) (2021-05-28T20:27:02Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。