論文の概要: Automatic Speech Summarisation: A Scoping Review
- arxiv url: http://arxiv.org/abs/2008.11897v1
- Date: Thu, 27 Aug 2020 03:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:10:47.169585
- Title: Automatic Speech Summarisation: A Scoping Review
- Title(参考訳): 音声の自動要約:スコーピングのレビュー
- Authors: Dana Rezazadegan, Shlomo Berkovsky, Juan C. Quiroz, A. Baki Kocaballi,
Ying Wang, Liliana Laranjo, Enrico Coiera
- Abstract要約: このスコーピングレビューは、時間枠、言語要約、研究方法、ペーパータイプに制約のない音声要約文献をマッピングする。
文献検索と抽出した音声特徴, 方法, 範囲, 訓練コーパスから得られた153の集合から, 合計110の論文をレビューした。
- 参考スコア(独自算出の注目度): 7.755991028607979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech summarisation techniques take human speech as input and then output an
abridged version as text or speech. Speech summarisation has applications in
many domains from information technology to health care, for example improving
speech archives or reducing clinical documentation burden. This scoping review
maps the speech summarisation literature, with no restrictions on time frame,
language summarised, research method, or paper type. We reviewed a total of 110
papers out of a set of 153 found through a literature search and extracted
speech features used, methods, scope, and training corpora. Most studies employ
one of four speech summarisation architectures: (1) Sentence extraction and
compaction; (2) Feature extraction and classification or rank-based sentence
selection; (3) Sentence compression and compression summarisation; and (4)
Language modelling. We also discuss the strengths and weaknesses of these
different methods and speech features. Overall, supervised methods (e.g. Hidden
Markov support vector machines, Ranking support vector machines, Conditional
random fields) performed better than unsupervised methods. As supervised
methods require manually annotated training data which can be costly, there was
more interest in unsupervised methods. Recent research into unsupervised
methods focusses on extending language modelling, for example by combining
Uni-gram modelling with deep neural networks. Protocol registration: The
protocol for this scoping review is registered at https://osf.io.
- Abstract(参考訳): 音声要約技術は、人間の音声を入力とし、短縮版をテキストまたは音声として出力する。
音声要約は、情報技術から医療まで、音声アーカイブの改善や臨床文書の負担軽減など、多くの分野に応用されている。
このスコーピングレビューは、時間枠、言語要約、研究方法、ペーパータイプに制限がなく、音声要約の文献をマッピングする。
文献検索および抽出した音声の特徴,使用方法,スコープ,コーパスの訓練によって得られた153項目のうち,合計110論文をレビューした。
ほとんどの研究は、(1)文抽出と圧縮、(2)特徴抽出と分類またはランクに基づく文選択、(3)文圧縮と圧縮要約、(4)言語モデルという4つの音声要約アーキテクチャの1つを採用している。
また、これらの方法と音声の特徴の強みと弱みについても論じる。
全体として、教師付きメソッド(例えば隠れマルコフサポートベクターマシン、ランキング付きベクターマシン、条件付き乱数フィールド)は教師なしメソッドよりもパフォーマンスが良かった。
教師付きメソッドにはコストのかかる手作業によるアノテートトレーニングデータが必要であるため、教師なしメソッドに対する関心が高まった。
教師なし手法に関する最近の研究は、例えばUni-gramモデリングとディープニューラルネットワークを組み合わせることで、言語モデリングの拡張に焦点を当てている。
プロトコル登録: このスコープレビューのプロトコルはhttps://osf.io.orgで登録される。
関連論文リスト
- Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Unified Speech-Text Pre-training for Speech Translation and Recognition [113.31415771943162]
音声認識のためのエンコーダ・デコーダ・モデリング・フレームワークにおいて,音声とテキストを協調的に事前学習する手法について述べる。
提案手法は,4つの自己教師付きサブタスクを組み込んだクロスモーダル学習手法である。
MuST-C音声翻訳データセットの最先端よりも1.7から2.3BLEUの改善が達成されている。
論文 参考訳(メタデータ) (2022-04-11T20:59:51Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Deep Neural Networks for Automatic Speech Processing: A Survey from
Large Corpora to Limited Data [1.2031796234206138]
多くの最先端音声システムはディープニューラルネットワーク(DNN)を使用している。
これらのシステムは大量のデータを学習する必要がある。
我々は、自動音声認識、話者識別、感情認識の3つのタスクに自らを配置する。
論文 参考訳(メタデータ) (2020-03-09T16:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。