論文の概要: BASS: Block-wise Adaptation for Speech Summarization
- arxiv url: http://arxiv.org/abs/2307.08217v1
- Date: Mon, 17 Jul 2023 03:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:52:49.102124
- Title: BASS: Block-wise Adaptation for Speech Summarization
- Title(参考訳): BASS:音声要約のためのブロックワイズ適応
- Authors: Roshan Sharma, Kenneth Zheng, Siddhant Arora, Shinji Watanabe, Rita
Singh, Bhiksha Raj
- Abstract要約: 本研究では,非常に長い列の要約モデルを漸進的に訓練する手法を開発した。
音声要約はストリーミングプロセスとして実現され、各ブロック毎に仮説要約が更新される。
How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。
- 参考スコア(独自算出の注目度): 47.518484305407185
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: End-to-end speech summarization has been shown to improve performance over
cascade baselines. However, such models are difficult to train on very large
inputs (dozens of minutes or hours) owing to compute restrictions and are hence
trained with truncated model inputs. Truncation leads to poorer models, and a
solution to this problem rests in block-wise modeling, i.e., processing a
portion of the input frames at a time. In this paper, we develop a method that
allows one to train summarization models on very long sequences in an
incremental manner. Speech summarization is realized as a streaming process,
where hypothesis summaries are updated every block based on new acoustic
information. We devise and test strategies to pass semantic context across the
blocks. Experiments on the How2 dataset demonstrate that the proposed
block-wise training method improves by 3 points absolute on ROUGE-L over a
truncated input baseline.
- Abstract(参考訳): エンドツーエンドの音声要約は、カスケードベースラインのパフォーマンスを改善することが示されている。
しかし、そのようなモデルは計算制限のため、非常に大きな入力(数分または数時間)で訓練することは困難であり、結果として切り詰められたモデル入力で訓練される。
トランケーションはより貧弱なモデルにつながり、この問題の解決策はブロックワイドなモデリング、すなわち入力フレームの一部を一度に処理することにある。
本稿では,非常に長い列の要約モデルを漸進的に学習する手法を提案する。
音声要約は、新たな音響情報に基づいて各ブロック毎に仮説要約を更新するストリーミングプロセスとして実現される。
ブロック間で意味的コンテキストを渡す戦略を考案し、テストします。
How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。
関連論文リスト
- Exploring Efficient Foundational Multi-modal Models for Video Summarization [15.418001616659808]
このようなビデオ基礎モデルは、各モダリティ固有モデルからの出力を同じ埋め込み空間にアライメントすることで事前学習を行う。
本稿では,各入力モダリティから生成したテキストを言語モデルに組み込んだプラグイン・アンド・プレイ型ビデオ言語モデルを提案する。
プラグアンドプレイ方式とベースラインチューニング方式のパフォーマンスと計算コストを比較した。
論文 参考訳(メタデータ) (2024-10-09T20:07:06Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - SegPrompt: Using Segmentation Map as a Better Prompt to Finetune Deep
Models for Kidney Stone Classification [62.403510793388705]
深層学習は、内視鏡画像を用いた腎臓結石分類のための奨励的な結果を生み出している。
注釈付きトレーニングデータの不足は、トレーニングされたモデルの性能と一般化能力を改善する上で深刻な問題を引き起こす。
本稿では,セグメンテーションマップを2つの側面から活用することにより,データ不足問題を軽減するためにSegPromptを提案する。
論文 参考訳(メタデータ) (2023-03-15T01:30:48Z) - Latent Iterative Refinement for Modular Source Separation [44.78689915209527]
従来のソース分離アプローチは、すべてのデータを一度に利用できるように、ディープニューラルネットワークモデルをエンドツーエンドにトレーニングする。
我々は、トレーニングと推論の段階において、リソース効率を著しく向上させることができると論じる。
論文 参考訳(メタデータ) (2022-11-22T00:02:57Z) - Blockwise Sequential Model Learning for Partially Observable
Reinforcement Learning [14.642266310020505]
本稿では、部分的に観測可能なマルコフ決定問題を解くために、新しい逐次モデル学習アーキテクチャを提案する。
提案アーキテクチャは,各データブロックに複数のタイムステップを持つ潜時変数を生成し,最も関連性の高い情報を次のブロックに渡してポリシー最適化を行う。
数値計算の結果,提案手法は様々な部分観測可能な環境において,従来の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-10T05:38:24Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - PGT: A Progressive Method for Training Models on Long Videos [45.935259079953255]
メインストリーム方式は、生のビデオをクリップに分割し、不完全な時間的情報の流れをもたらす。
長文を扱う自然言語処理技術に着想を得て,マルコフ特性を満たすシリアルフラグメントとしてビデオを扱うことを提案する。
さまざまなモデルやデータセットで大幅なパフォーマンス改善をもたらすことを実証的に実証しています。
論文 参考訳(メタデータ) (2021-03-21T06:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。