Fugu-MT 論文翻訳(概要): On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding

論文の概要: On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding

arxiv url: http://arxiv.org/abs/2210.05291v1
Date: Tue, 11 Oct 2022 09:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 17:15:09.262869
Title: On the Use of Semantically-Aligned Speech Representations for Spoken Language Understanding
Title（参考訳）: 音声理解における意味的適応型音声表現の利用について
Authors: Ga\"elle Laperri\`ere, Valentin Pelloin, Micka\"el Rouvier, Themos Stafylakis, Yannick Est\`eve
Abstract要約: 我々は最近導入されたSAMU-XLSRモデルを用いて、発話レベルで意味をキャプチャする単一の埋め込みを生成するように設計されている。本稿では,初期XLS-Rモデルの代わりにSAMU-XLSRモデルを用いることで,エンドツーエンドの音声言語理解フレームワークの性能を大幅に向上することを示す。
参考スコア（独自算出の注目度）: 9.319029899398673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we examine the use of semantically-aligned speech representations for end-to-end spoken language understanding (SLU). We employ the recently-introduced SAMU-XLSR model, which is designed to generate a single embedding that captures the semantics at the utterance level, semantically aligned across different languages. This model combines the acoustic frame-level speech representation learning model (XLS-R) with the Language Agnostic BERT Sentence Embedding (LaBSE) model. We show that the use of the SAMU-XLSR model instead of the initial XLS-R model improves significantly the performance in the framework of end-to-end SLU. Finally, we present the benefits of using this model towards language portability in SLU.
Abstract（参考訳）: 本稿では,SLU(End-to-end Speech Language Understanding)における意味的に整合した音声表現について検討する。我々は、最近導入されたSAMU-XLSRモデルを用いて、異なる言語間で意味的に整合した発話レベルでセマンティクスをキャプチャする単一の埋め込みを生成するように設計されている。このモデルは、音響フレームレベル音声表現学習モデル(XLS-R)とLanguage Agnostic BERT Sentence Embedding(LaBSE)モデルを組み合わせる。本稿では,初期XLS-Rモデルの代わりにSAMU-XLSRモデルを用いることで,エンドツーエンドSLUのフレームワークの性能を大幅に向上することを示す。最後に、SLUにおける言語ポータビリティに対するこのモデルの利用の利点を示す。

関連論文リスト

Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer [11.362681035467121]
我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
論文参考訳（メタデータ） (2025-01-03T18:19:12Z)
Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文参考訳（メタデータ） (2024-11-04T06:07:53Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
Scaling Properties of Speech Language Models [4.0142527158949415]
音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。テキストベース大規模言語モデル(LLM)の英語習熟度を用いて,現在の手法がSLMを生成するスケールを推定する。
論文参考訳（メタデータ） (2024-03-31T13:30:12Z)
Towards ASR Robust Spoken Language Understanding Through In-Context Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文参考訳（メタデータ） (2024-01-05T17:58:10Z)
Improving Aspect-Based Sentiment with End-to-End Semantic Role Labeling Model [6.85316573653194]
本稿では,Aspect-Based Sentiment Analysis(ABSA)の性能向上を目的とした一連のアプローチを提案する。本稿では,トランスフォーマーの隠蔽状態における構造的意味情報の大部分を効果的にキャプチャする,エンドツーエンドのセマンティックロールラベルモデルを提案する。 ELECTRA小モデルを用いて,提案したモデルを英語とチェコ語で評価した。
論文参考訳（メタデータ） (2023-07-27T11:28:16Z)
Semantic enrichment towards efficient speech representations [9.30840529284715]
本研究では,SAMU-XLSRモデルのドメイン内セマンティックエンリッチメントについて検討する。我々は、低リソース言語移植性のために、同じドメインのフランス語とイタリア語のベンチマークを使用することの利点を示す。
論文参考訳（メタデータ） (2023-07-03T19:52:56Z)
Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。 MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文参考訳（メタデータ） (2023-05-23T18:00:22Z)
End-to-end model for named entity recognition from speech without paired training data [12.66131972249388]
本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。 quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
論文参考訳（メタデータ） (2022-04-02T08:14:27Z)
Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。 C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文参考訳（メタデータ） (2021-09-02T09:10:39Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。