論文の概要: Knowledge-Aware Audio-Grounded Generative Slot Filling for Limited
Annotated Data
- arxiv url: http://arxiv.org/abs/2307.01764v1
- Date: Tue, 4 Jul 2023 15:05:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 16:38:38.584418
- Title: Knowledge-Aware Audio-Grounded Generative Slot Filling for Limited
Annotated Data
- Title(参考訳): 限定アノテートデータに対する知識認識型オーディオグラウンド生成スロットフィリング
- Authors: Guangzhi Sun, Chao Zhang, Ivan Vuli\'c, Pawe{\l} Budzianowski, Philip
C. Woodland
- Abstract要約: 本稿では,タスク指向対話(ToD)システムにおいて,KA2G(Knowledge-Aware Audio-Grounded Generative slot-filling framework)を提案する。
KA2Gは,1)テキスト生成タスクとしてフレーミングすること,2)音声モダリティを付加したテキスト生成を行うこと,3)利用可能な外部知識を条件付けること,である。
標準音声ベースのシングルターンSLURPデータセットと商用ToDシステムから抽出したマルチターンデータセットを用いて実験を行い、強みと一貫した利得を示す。
- 参考スコア(独自算出の注目度): 61.89520860387473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manually annotating fine-grained slot-value labels for task-oriented dialogue
(ToD) systems is an expensive and time-consuming endeavour. This motivates
research into slot-filling methods that operate with limited amounts of
labelled data. Moreover, the majority of current work on ToD is based solely on
text as the input modality, neglecting the additional challenges of imperfect
automatic speech recognition (ASR) when working with spoken language. In this
work, we propose a Knowledge-Aware Audio-Grounded generative slot-filling
framework, termed KA2G, that focuses on few-shot and zero-shot slot filling for
ToD with speech input. KA2G achieves robust and data-efficient slot filling for
speech-based ToD by 1) framing it as a text generation task, 2) grounding text
generation additionally in the audio modality, and 3) conditioning on available
external knowledge (e.g. a predefined list of possible slot values). We show
that combining both modalities within the KA2G framework improves the
robustness against ASR errors. Further, the knowledge-aware slot-value
generator in KA2G, implemented via a pointer generator mechanism, particularly
benefits few-shot and zero-shot learning. Experiments, conducted on the
standard speech-based single-turn SLURP dataset and a multi-turn dataset
extracted from a commercial ToD system, display strong and consistent gains
over prior work, especially in few-shot and zero-shot setups.
- Abstract(参考訳): タスク指向対話(tod)システムのための細粒度スロット値ラベルを手動で注釈するのは、高価で時間がかかります。
これにより、限られた量のラベル付きデータを扱うスロットフィルング方法の研究が動機となる。
さらに、ToDに関する現在の研究の大部分は、音声言語で作業する際の不完全な自動音声認識(ASR)のさらなる課題を無視し、入力モダリティとしてのテキストのみに基づいている。
本研究では,音声入力によるToDの少数ショットおよびゼロショットスロットフィリングに着目した,知識認識型音声包絡型生成スロットフィリングフレームワークKA2Gを提案する。
KA2Gは音声ベースのToDにおけるロバストかつデータ効率の良いスロットフィリングを実現する
1)テキスト生成タスクとしてフレーミングすること。
2)音声モダリティに付加的なテキスト生成の接地,及び
3) 利用可能な外部知識の条件付け(スロット値の事前定義されたリストなど)。
KA2Gフレームワーク内の両方のモダリティを組み合わせることで、ASRエラーに対する堅牢性が向上することを示す。
さらに、ポインタ生成機構を介して実装されたka2gの知識認識スロット値生成器は、特に、ゼロショット学習とゼロショット学習にメリットがある。
商用todシステムから抽出した標準音声ベースのシングルターンslurpデータセットとマルチターンデータセットを用いて実験を行い,先行作業,特にマイショットおよびゼロショット設定において,強固かつ一貫した結果を示す。
関連論文リスト
- DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Text Injection for Capitalization and Turn-Taking Prediction in Speech
Models [45.94388391693112]
本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。
テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上することを示す。
論文 参考訳(メタデータ) (2023-08-14T18:28:04Z) - Slot Induction via Pre-trained Language Model Probing and Multi-level
Contrastive Learning [62.839109775887025]
トークンレベルのスロットアノテーションの明示的な知識なしでスロット境界を誘導することを目的としたスロットインジェクション(SI)タスク。
PLMから抽出した教師なし意味知識を活用するために、教師なし事前学習言語モデル(PLM)探索とコントラスト学習機構を活用することを提案する。
提案手法は,2つのNLUベンチマークデータセット上でトークンレベルの教師付きモデルとのギャップを埋めることができ,SIタスクに有効であることが示されている。
論文 参考訳(メタデータ) (2023-08-09T05:08:57Z) - CI-AVSR: A Cantonese Audio-Visual Speech Dataset for In-car Command
Recognition [91.33781557979819]
新しいデータセットであるCantonese In-car Audio-Visual Speech Recognition (CI-AVSR)を導入する。
カントン語話者30人が記録した200の車載コマンドの4,984サンプル(8.3時間)で構成されている。
当社のデータセットのクリーンバージョンと拡張バージョンの両方について、詳細な統計情報を提供しています。
論文 参考訳(メタデータ) (2022-01-11T06:32:12Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Zero-shot Slot Filling with DPR and RAG [10.577238010892287]
与えられた文書コレクションから知識グラフ(KG)を自動的に抽出する能力は、人工知能の長年の問題である。
この分野の最近の進歩は、検索ベースの言語モデルを用いて、エンドツーエンドの方法でこの課題を解決しようとする。
本稿では,より優れたスロットフィラーを実現するために,ragのレトリバーとジェネレータを改善するためのいくつかの戦略について述べる。
論文 参考訳(メタデータ) (2021-04-17T18:24:51Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。