論文の概要: What BERT Based Language Models Learn in Spoken Transcripts: An
Empirical Study
- arxiv url: http://arxiv.org/abs/2109.09105v1
- Date: Sun, 19 Sep 2021 11:23:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 10:48:07.159747
- Title: What BERT Based Language Models Learn in Spoken Transcripts: An
Empirical Study
- Title(参考訳): BERTをベースとした言語モデルが音声文で何を学ぶか : 実証的研究
- Authors: Ayush Kumar, Mukuntha Narayanan Sundararaman, Jithendra Vepa
- Abstract要約: 本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,音声の手がかりのない多言語特性を理解する能力について検討する。
実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。
2つのベンチマークデータセット上で、上記プロパティの有効性と転送性を確立する。
- 参考スコア(独自算出の注目度): 6.696983725360809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) have been ubiquitously leveraged in various tasks
including spoken language understanding (SLU). Spoken language requires careful
understanding of speaker interactions, dialog states and speech induced
multimodal behaviors to generate a meaningful representation of the
conversation.In this work, we propose to dissect SLU into three representative
properties:conversational(disfluency, pause, overtalk), channel(speaker-type,
turn-tasks) andASR(insertion, deletion,substitution). We probe BERT based
language models (BERT, RoBERTa) trained on spoken transcripts to investigate
its ability to understand multifarious properties in absence of any speech
cues. Empirical results indicate that LM is surprisingly good at capturing
conversational properties such as pause prediction and overtalk detection from
lexical tokens. On the downsides, the LM scores low on turn-tasks and ASR
errors predictions. Additionally, pre-training the LM on spoken transcripts
restrain its linguistic understanding. Finally,we establish the efficacy and
transferability of the mentioned properties on two benchmark datasets:
Switchboard Dialog Act and Disfluency datasets.
- Abstract(参考訳): 言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクに広く活用されている。
音声言語は,会話の有意義な表現を生成するために,話者の対話,対話状態,発話による多モーダル行動の注意深い理解を必要とする。本研究では,SLUを3つの代表的な特性である会話(分散,一時停止,オーバートーク),チャンネル(話者型,ターンタスク),ASR(挿入,削除,置換)に分解することを提案する。
本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。
実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。
マイナス面として、LMはターンタスクとASRエラー予測で低いスコアを得る。
さらに、音声文字によるLMの事前訓練は、その言語的理解を阻害する。
最後に、Switchboard Dialog Act と Disfluency dataset の2つのベンチマークデータセット上で、上記のプロパティの有効性と転送性を確立する。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Toward Joint Language Modeling for Speech Units and Text [89.32163954508489]
音声単位とテキストの共用言語モデリングについて検討する。
音声とテキストの混在度を評価するための自動計測手法を提案する。
提案手法を用いて音声単位とテキストを混合することにより,SLUタスクにおける音声のみのベースラインを改良することを示す。
論文 参考訳(メタデータ) (2023-10-12T20:53:39Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Instruction-Following Speech Recognition [21.591086644665197]
本稿では,命令追従音声認識を導入し,多様な自由形式のテキスト命令の理解と実行を行うリステン・アテンド・スペルモデルを訓練する。
注目すべきは、我々のモデルは、Librispeechでゼロから訓練され、大規模言語モデルや事前訓練された音声モジュールを必要とせずに、簡単な命令を解釈し、実行します。
論文 参考訳(メタデータ) (2023-09-18T14:59:10Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。