論文の概要: Towards End-to-end Speech-to-text Summarization
- arxiv url: http://arxiv.org/abs/2306.05432v1
- Date: Tue, 6 Jun 2023 15:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:17:01.847315
- Title: Towards End-to-end Speech-to-text Summarization
- Title(参考訳): エンドツーエンド音声からテキストへの要約に向けて
- Authors: Raul Monteiro and Diogo Pernes
- Abstract要約: 音声からテキストへの要約(S2T)は、オンラインで毎日アップロードされたニュースをフィルタリングし、追従するための時間節約手法である。
S2T抽象要約のエンドツーエンド(E2E)モデリングは、リッチな潜在表現を生成する可能性を提供する有望なアプローチである。
我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-to-text (S2T) summarization is a time-saving technique for filtering
and keeping up with the broadcast news uploaded online on a daily basis. The
rise of large language models from deep learning with impressive text
generation capabilities has placed the research focus on summarization systems
that produce paraphrased compact versions of the document content, also known
as abstractive summaries. End-to-end (E2E) modelling of S2T abstractive
summarization is a promising approach that offers the possibility of generating
rich latent representations that leverage non-verbal and acoustic information,
as opposed to the use of only linguistic information from automatically
generated transcripts in cascade systems. However, the few literature on E2E
modelling of this task fails on exploring different domains, namely broadcast
news, which is challenging domain where large and diversified volumes of data
are presented to the user every day. We model S2T summarization both with a
cascade and an E2E system for a corpus of broadcast news in French. Our novel
E2E model leverages external data by resorting to transfer learning from a
pre-trained T2T summarizer. Experiments show that both our cascade and E2E
abstractive summarizers are stronger than an extractive baseline. However, the
performance of the E2E model still lies behind the cascade one, which is object
of an extensive analysis that includes future directions to close that gap.
- Abstract(参考訳): speech-to-text (s2t) 要約は、毎日オンラインでアップロードされる放送ニュースをフィルタリングし、追跡するための時間節約技術である。
テキスト生成機能を備えたディープラーニングによる大規模言語モデルの台頭は、文書コンテンツ(抽象要約としても知られる)のパラフレーズ化されたコンパクトバージョンを生成する要約システムに焦点をあてている。
s2t抽象要約(s2t abstractive summarization)のエンドツーエンド(e2e)モデリングは、非言語的および音響的情報を利用するリッチな潜在表現を生成する可能性を提供する有望なアプローチである。
しかし、このタスクのE2Eモデリングに関する数少ない文献は、様々なドメイン、すなわち放送ニュースの探索に失敗している。
我々は、フランス語放送ニュースのコーパスに対して、カスケードとE2Eシステムの両方でS2T要約をモデル化する。
我々の新しいE2Eモデルは、事前訓練されたT2T要約器から学習を伝達することで外部データを活用する。
実験により, カスケードおよびE2E抽象要約器は, 抽出基線よりも強いことがわかった。
しかし、E2Eモデルの性能は、そのギャップを埋めるための将来の方向を含む広範な分析の対象であるカスケードモデルの背後にある。
関連論文リスト
- Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation [44.332577357986324]
Sen-SSumは文単位で音声文書からテキスト要約を生成する。
We present two datasets for Sen-SSum: Mega-SSum and CSJ-SSum。
論文 参考訳(メタデータ) (2024-08-01T00:18:21Z) - RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder
for Language Modeling [79.56442336234221]
可変オートエンコーダ(VAE)に基づく検索拡張言語モデルであるRegaVAEを紹介する。
テキストコーパスを潜在空間にエンコードし、ソースとターゲットの両方のテキストから現在と将来の情報をキャプチャする。
各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。
論文 参考訳(メタデータ) (2023-10-16T16:42:01Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - Textless Direct Speech-to-Speech Translation with Discrete Speech
Representation [27.182170555234226]
本研究では,テキストの監督なしにエンドツーエンドの直接S2STモデルをトレーニングするための新しいモデルであるTextless Translatotronを提案する。
教師なし音声データで事前訓練された音声エンコーダを両方のモデルに使用すると、提案モデルはトランスラトトロン2とほぼ同等の翻訳品質が得られる。
論文 参考訳(メタデータ) (2022-10-31T19:48:38Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Topic-Guided Abstractive Text Summarization: a Joint Learning Approach [19.623946402970933]
本稿では,抽象テキスト要約のための新しいアプローチ,トピックガイドによる抽象要約を提案する。
ニューラルネットワークをTransformerベースのシーケンス・ツー・シーケンス(seq2seq)モデルに結合学習フレームワークに組み込むことが目的だ。
論文 参考訳(メタデータ) (2020-10-20T14:45:25Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。