論文の概要: An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features
- arxiv url: http://arxiv.org/abs/2006.01189v1
- Date: Mon, 1 Jun 2020 18:27:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 07:06:21.683001
- Title: An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features
- Title(参考訳): 拡張機能付き音声要約のための効果的な文脈言語モデリングフレームワーク
- Authors: Shi-Yan Weng, Tien-Hong Lo, Berlin Chen
- Abstract要約: 変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
- 参考スコア(独自算出の注目度): 13.97006782398121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tremendous amounts of multimedia associated with speech information are
driving an urgent need to develop efficient and effective automatic
summarization methods. To this end, we have seen rapid progress in applying
supervised deep neural network-based methods to extractive speech
summarization. More recently, the Bidirectional Encoder Representations from
Transformers (BERT) model was proposed and has achieved record-breaking success
on many natural language processing (NLP) tasks such as question answering and
language understanding. In view of this, we in this paper contextualize and
enhance the state-of-the-art BERT-based model for speech summarization, while
its contributions are at least three-fold. First, we explore the incorporation
of confidence scores into sentence representations to see if such an attempt
could help alleviate the negative effects caused by imperfect automatic speech
recognition (ASR). Secondly, we also augment the sentence embeddings obtained
from BERT with extra structural and linguistic features, such as sentence
position and inverse document frequency (IDF) statistics. Finally, we validate
the effectiveness of our proposed method on a benchmark dataset, in comparison
to several classic and celebrated speech summarization methods.
- Abstract(参考訳): 音声情報に付随する膨大なマルチメディアが,効率的な自動要約手法の開発を急務に進めている。
この目的のために,教師付きディープニューラルネットワークを用いた音声要約手法の急速な進歩が見られた。
近年,BERT(Bidirectional Encoder Representations from Transformers)モデルが提案され,質問応答や言語理解など多くの自然言語処理(NLP)タスクにおいて記録的な成功を収めている。
この観点から,本稿では,少なくとも3倍のコントリビューションを達成しつつ,最先端のBERTに基づく音声要約モデルのコンテキスト化と強化を行う。
まず,不完全な自動音声認識(ASR)による負の効果を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
また,文位置や逆文書頻度(IDF)統計などの構造的・言語的特徴を付加したBERTから得られた文の埋め込みも強化した。
最後に,提案手法の有効性をベンチマークデータセット上で検証し,いくつかの古典的音声要約法と比較した。
関連論文リスト
- SpeechPrompt: Prompting Speech Language Models for Speech Processing Tasks [94.10497337235083]
我々はまず,音声処理分野における音声 LM の促進の可能性を探る。
音声処理タスクを音声単位生成タスクに再構成する。
提案手法は, 強い微調整法と比較して, 競争性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-08-23T13:00:10Z) - dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - SpeechGPT-Gen: Scaling Chain-of-Information Speech Generation [56.913182262166316]
CoIG(Chain-of-Information Generation)は、大規模音声生成において意味情報と知覚情報を分離する手法である。
SpeechGPT-Genはセマンティックおよび知覚情報モデリングにおいて効率的である。
ゼロショット音声変換、ゼロショット音声変換、音声音声対話に優れる。
論文 参考訳(メタデータ) (2024-01-24T15:25:01Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network [1.006218778776515]
自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
論文 参考訳(メタデータ) (2023-02-26T18:28:20Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text
Joint Pre-Training [33.02912456062474]
我々は、ラベルなしテキストのBERT目的とラベルなし音声のw2v-BERT目的とを併用した単一のエンコーダを構築する。
プレトレーニング中に音声データとテキストデータの両方を組み込むことで、CoVoST2音声翻訳における下流品質が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2021-10-20T00:59:36Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。