論文の概要: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken
Document Segmentation
- arxiv url: http://arxiv.org/abs/2107.09278v1
- Date: Tue, 20 Jul 2021 06:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:02:45.147515
- Title: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken
Document Segmentation
- Title(参考訳): 高速音声文書分割のための自己適応スライディングウィンドウを用いたシーケンスモデル
- Authors: Qinglin Zhang, Qian Chen, Yali Li, Jiaqing Liu, Wen Wang
- Abstract要約: 段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。
また,音声情報を活用する手法を提案し,ASR誤りに対する音声文書のセグメンテーションの堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 22.6548277172532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcripts generated by automatic speech recognition (ASR) systems for
spoken documents lack structural annotations such as paragraphs, significantly
reducing their readability. Automatically predicting paragraph segmentation for
spoken documents may both improve readability and downstream NLP performance
such as summarization and machine reading comprehension. We propose a sequence
model with self-adaptive sliding window for accurate and efficient paragraph
segmentation. We also propose an approach to exploit phonetic information,
which significantly improves robustness of spoken document segmentation to ASR
errors. Evaluations are conducted on the English Wiki-727K document
segmentation benchmark, a Chinese Wikipedia-based document segmentation dataset
we created, and an in-house Chinese spoken document dataset. Our proposed model
outperforms the state-of-the-art (SOTA) model based on the same BERT-Base,
increasing segmentation F1 on the English benchmark by 4.2 points and on
Chinese datasets by 4.3-10.1 points, while reducing inference time to less than
1/6 of inference time of the current SOTA.
- Abstract(参考訳): 音声文書の自動音声認識(ASR)システムによって生成された文書には,段落などの構造的アノテーションがなく,可読性を著しく低下させる。
音声文書における段落分割の自動予測は,要約や機械読解など,読みやすさと下流NLPの性能を向上させる可能性がある。
段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。
また,asr誤りに対する音声文書セグメンテーションのロバスト性を大幅に向上させる音声情報活用手法を提案する。
評価は、英語のwiki-727kドキュメントセグメンテーションベンチマーク、中国語のwikipediaベースのドキュメントセグメンテーションデータセット、社内の中国語ドキュメントデータセットで行われます。
提案モデルは,同一のBERTベースに基づく最新技術(SOTA)モデルより優れ,英語ベンチマークでは4.2ポイント,中国語データセットでは4.3-10.1ポイント,推定時間は現在のSOTAの1/6未満に低下する。
関連論文リスト
- Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - LINGUIST: Language Model Instruction Tuning to Generate Annotated
Utterances for Intent Classification and Slot Tagging [6.1297730033734945]
分類とスロットタギングのための注釈付きデータを生成する lingUIST (IC+ST) について述べる。
SNIPSデータセットの10ショットの新規な意図設定では、lingUISTは最先端のアプローチを超越している。
我々は、多言語インテントおよびスロットラベルデータ生成の出力を制御するために、大規模セク2セックモデルの命令微調整を初めて実施する。
論文 参考訳(メタデータ) (2022-09-20T17:59:08Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Improving Punctuation Restoration for Speech Transcripts via External
Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
論文 参考訳(メタデータ) (2021-10-01T17:40:55Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。