論文の概要: On the Use of Semantically-Aligned Speech Representations for Spoken
Language Understanding
- arxiv url: http://arxiv.org/abs/2210.05291v1
- Date: Tue, 11 Oct 2022 09:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:15:09.262869
- Title: On the Use of Semantically-Aligned Speech Representations for Spoken
Language Understanding
- Title(参考訳): 音声理解における意味的適応型音声表現の利用について
- Authors: Ga\"elle Laperri\`ere, Valentin Pelloin, Micka\"el Rouvier, Themos
Stafylakis, Yannick Est\`eve
- Abstract要約: 我々は最近導入されたSAMU-XLSRモデルを用いて、発話レベルで意味をキャプチャする単一の埋め込みを生成するように設計されている。
本稿では,初期XLS-Rモデルの代わりにSAMU-XLSRモデルを用いることで,エンドツーエンドの音声言語理解フレームワークの性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 9.319029899398673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we examine the use of semantically-aligned speech
representations for end-to-end spoken language understanding (SLU). We employ
the recently-introduced SAMU-XLSR model, which is designed to generate a single
embedding that captures the semantics at the utterance level, semantically
aligned across different languages. This model combines the acoustic
frame-level speech representation learning model (XLS-R) with the Language
Agnostic BERT Sentence Embedding (LaBSE) model. We show that the use of the
SAMU-XLSR model instead of the initial XLS-R model improves significantly the
performance in the framework of end-to-end SLU. Finally, we present the
benefits of using this model towards language portability in SLU.
- Abstract(参考訳): 本稿では,SLU(End-to-end Speech Language Understanding)における意味的に整合した音声表現について検討する。
我々は、最近導入されたSAMU-XLSRモデルを用いて、異なる言語間で意味的に整合した発話レベルでセマンティクスをキャプチャする単一の埋め込みを生成するように設計されている。
このモデルは、音響フレームレベル音声表現学習モデル(XLS-R)とLanguage Agnostic BERT Sentence Embedding(LaBSE)モデルを組み合わせる。
本稿では,初期XLS-Rモデルの代わりにSAMU-XLSRモデルを用いることで,エンドツーエンドSLUのフレームワークの性能を大幅に向上することを示す。
最後に、SLUにおける言語ポータビリティに対するこのモデルの利用の利点を示す。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Improving Aspect-Based Sentiment with End-to-End Semantic Role Labeling
Model [6.85316573653194]
本稿では,Aspect-Based Sentiment Analysis(ABSA)の性能向上を目的とした一連のアプローチを提案する。
本稿では,トランスフォーマーの隠蔽状態における構造的意味情報の大部分を効果的にキャプチャする,エンドツーエンドのセマンティックロールラベルモデルを提案する。
ELECTRA小モデルを用いて,提案したモデルを英語とチェコ語で評価した。
論文 参考訳(メタデータ) (2023-07-27T11:28:16Z) - Semantic enrichment towards efficient speech representations [9.30840529284715]
本研究では,SAMU-XLSRモデルのドメイン内セマンティックエンリッチメントについて検討する。
我々は、低リソース言語移植性のために、同じドメインのフランス語とイタリア語のベンチマークを使用することの利点を示す。
論文 参考訳(メタデータ) (2023-07-03T19:52:56Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot
Learning [80.29186197773636]
合成ゼロショット学習(CZSL)タスクは、目に見えない視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Automatic Pronunciation Assessment using Self-Supervised Speech
Representation Learning [13.391307807956673]
自己教師付き学習(SSL)モデルに基づく新しい発音評価手法を提案する。
提案手法は,英単語学習者の英語発音に適応するために,事前学習したSSLモデルを接続型時間分類で微調整する。
提案手法は,韓国のESL学習者とSpeechocean762のデータセットに基づいて,ピアソン相関係数を用いてベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T06:13:55Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - End-to-end model for named entity recognition from speech without paired
training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文 参考訳(メタデータ) (2022-04-02T08:14:27Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。