Fugu-MT 論文翻訳(概要): What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study

論文の概要: What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study

arxiv url: http://arxiv.org/abs/2109.09105v1
Date: Sun, 19 Sep 2021 11:23:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-09-22 10:48:07.159747
Title: What BERT Based Language Models Learn in Spoken Transcripts: An Empirical Study
Title（参考訳）: BERTをベースとした言語モデルが音声文で何を学ぶか : 実証的研究
Authors: Ayush Kumar, Mukuntha Narayanan Sundararaman, Jithendra Vepa
Abstract要約: 本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,音声の手がかりのない多言語特性を理解する能力について検討する。実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。 2つのベンチマークデータセット上で、上記プロパティの有効性と転送性を確立する。
参考スコア（独自算出の注目度）: 6.696983725360809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language Models (LMs) have been ubiquitously leveraged in various tasks including spoken language understanding (SLU). Spoken language requires careful understanding of speaker interactions, dialog states and speech induced multimodal behaviors to generate a meaningful representation of the conversation.In this work, we propose to dissect SLU into three representative properties:conversational(disfluency, pause, overtalk), channel(speaker-type, turn-tasks) andASR(insertion, deletion,substitution). We probe BERT based language models (BERT, RoBERTa) trained on spoken transcripts to investigate its ability to understand multifarious properties in absence of any speech cues. Empirical results indicate that LM is surprisingly good at capturing conversational properties such as pause prediction and overtalk detection from lexical tokens. On the downsides, the LM scores low on turn-tasks and ASR errors predictions. Additionally, pre-training the LM on spoken transcripts restrain its linguistic understanding. Finally,we establish the efficacy and transferability of the mentioned properties on two benchmark datasets: Switchboard Dialog Act and Disfluency datasets.
Abstract（参考訳）: 言語モデル(LM)は、音声言語理解(SLU)を含む様々なタスクに広く活用されている。音声言語は,会話の有意義な表現を生成するために,話者の対話,対話状態,発話による多モーダル行動の注意深い理解を必要とする。本研究では,SLUを3つの代表的な特性である会話(分散,一時停止,オーバートーク),チャンネル(話者型,ターンタスク),ASR(挿入,削除,置換)に分解することを提案する。本稿では,BERT に基づく言語モデル (BERT, RoBERTa) を探索し,言語手がかりがない場合に多言語特性を理解する能力について検討する。実験結果から,LMは語彙トークンから停止予測やオーバートーク検出などの会話特性を捉えるのに驚くほど優れていることが示唆された。マイナス面として、LMはターンタスクとASRエラー予測で低いスコアを得る。さらに、音声文字によるLMの事前訓練は、その言語的理解を阻害する。最後に、Switchboard Dialog Act と Disfluency dataset の2つのベンチマークデータセット上で、上記のプロパティの有効性と転送性を確立する。

関連論文リスト

ProsodyLM: Uncovering the Emerging Prosody Processing Capabilities in Speech Language Models [70.56468982313834]
本稿では,韻律学習に適した単純なトークン化方式であるProsodyLMを提案する。 ProsodyLMは事前学習だけで驚くほど多様なプロソディ処理能力を学習できることがわかった。
論文参考訳（メタデータ） (2025-07-27T00:59:01Z)
Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文参考訳（メタデータ） (2024-10-04T04:34:24Z)
Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。本稿では,近年のSpeechLM構築手法について概観する。
論文参考訳（メタデータ） (2024-10-01T21:48:12Z)
Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文参考訳（メタデータ） (2024-09-30T07:01:21Z)
Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。提案手法では,WavLMとWhisperエンコーダを用いて,話者の特徴や意味的文脈に敏感な多面的音声表現を抽出する。包括的実験により,カクテルパーティーのシナリオにおいて提案システムであるMT-LLMが期待できる性能を示した。
論文参考訳（メタデータ） (2024-09-13T07:28:28Z)
SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。音声処理タスクを音声単位生成タスクに再構成する。提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文参考訳（メタデータ） (2024-08-23T13:00:10Z)
The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文参考訳（メタデータ） (2023-05-16T17:53:03Z)
Towards Language Modelling in the Speech Domain Using Sub-word Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文参考訳（メタデータ） (2021-10-31T22:48:30Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。 LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文参考訳（メタデータ） (2020-05-17T10:50:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。