論文の概要: Text is no more Enough! A Benchmark for Profile-based Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2112.11953v1
- Date: Wed, 22 Dec 2021 15:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-23 15:06:40.318427
- Title: Text is no more Enough! A Benchmark for Profile-based Spoken Language
Understanding
- Title(参考訳): テキストはもう十分ではない!
プロファイルに基づく音声言語理解のためのベンチマーク
- Authors: Xiao Xu, Libo Qin, Kaiji Chen, Guoxing Wu, Linlin Li, Wanxiang Che
- Abstract要約: プロファイルベースの音声言語理解(ProSLU)は、プレーンテキストだけでなく、適切な意図やスロットを予測するために、サポートされたプロファイル情報にも依存するモデルを必要とする。
我々は、5K以上の発話とそれに対応するプロファイル情報を備えた大規模人手による中国語データセットを導入する。
実験結果から,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に動作しないことがわかった。
- 参考スコア(独自算出の注目度): 26.549776399115203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current researches on spoken language understanding (SLU) heavily are limited
to a simple setting: the plain text-based SLU that takes the user utterance as
input and generates its corresponding semantic frames (e.g., intent and slots).
Unfortunately, such a simple setting may fail to work in complex real-world
scenarios when an utterance is semantically ambiguous, which cannot be achieved
by the text-based SLU models. In this paper, we first introduce a new and
important task, Profile-based Spoken Language Understanding (ProSLU), which
requires the model that not only relies on the plain text but also the
supporting profile information to predict the correct intents and slots. To
this end, we further introduce a large-scale human-annotated Chinese dataset
with over 5K utterances and their corresponding supporting profile information
(Knowledge Graph (KG), User Profile (UP), Context Awareness (CA)). In addition,
we evaluate several state-of-the-art baseline models and explore a multi-level
knowledge adapter to effectively incorporate profile information. Experimental
results reveal that all existing text-based SLU models fail to work when the
utterances are semantically ambiguous and our proposed framework can
effectively fuse the supporting information for sentence-level intent detection
and token-level slot filling. Finally, we summarize key challenges and provide
new points for future directions, which hopes to facilitate the research.
- Abstract(参考訳): 音声言語理解(SLU)に関する現在の研究は、ユーザ発話を入力として取り、対応するセマンティックフレーム(例えば、意図とスロット)を生成するプレーンテキストベースのSLUという単純な設定に限られている。
残念ながら、このような単純な設定は、テキストベースのSLUモデルでは達成できない意味的にあいまいな発話の場合、複雑な実世界のシナリオでは機能しない可能性がある。
本稿では、まず、プロファイルベースの音声言語理解(ProSLU)という新しい重要なタスクを導入する。これは、プレーンテキストに依存するだけでなく、適切な意図やスロットを予測するためのプロファイル情報も必要である。
この目的のために,5k以上の発話とそれに対応する支援プロファイル情報(知識グラフ(kg),ユーザプロファイル(up),コンテキスト認識(ca))を備えた,大規模な中国語データセットについても紹介する。
さらに,最先端のベースラインモデルをいくつか評価し,プロファイル情報を効果的に組み込むマルチレベルナレッジアダプタの検討を行った。
実験の結果,既存のテキストベースSLUモデルは,発話が意味的に曖昧である場合に機能せず,提案フレームワークは文レベルの意図検出やトークンレベルのスロットフィリングに有効に利用することができることがわかった。
最後に、重要な課題をまとめ、今後の方向性に新たなポイントを提供し、研究の促進を期待する。
関連論文リスト
- TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Revisiting the Roles of "Text" in Text Games [102.22750109468652]
本稿では,強化学習におけるテキストの役割について検討する。
本稿では,関連するコンテキスト情報を近似状態ハッシュに抽出する簡単な手法を提案する。
このような軽量なプラグインは最先端のテキストエージェントとの競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T21:52:39Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - DSSL: Deep Surroundings-person Separation Learning for Text-based Person
Retrieval [40.70100506088116]
本稿では,Deep Surroundings-person Separation Learning(DSSL)モデルを提案する。
周囲の分離・融合機構は、正確かつ効果的な周囲の分離を実現する上で重要な役割を担っている。
CUHK-PEDES上で提案したDSSLの評価実験を行った。
論文 参考訳(メタデータ) (2021-09-12T15:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。