論文の概要: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken
Document Segmentation
- arxiv url: http://arxiv.org/abs/2107.09278v1
- Date: Tue, 20 Jul 2021 06:44:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:02:45.147515
- Title: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken
Document Segmentation
- Title(参考訳): 高速音声文書分割のための自己適応スライディングウィンドウを用いたシーケンスモデル
- Authors: Qinglin Zhang, Qian Chen, Yali Li, Jiaqing Liu, Wen Wang
- Abstract要約: 段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。
また,音声情報を活用する手法を提案し,ASR誤りに対する音声文書のセグメンテーションの堅牢性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 22.6548277172532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transcripts generated by automatic speech recognition (ASR) systems for
spoken documents lack structural annotations such as paragraphs, significantly
reducing their readability. Automatically predicting paragraph segmentation for
spoken documents may both improve readability and downstream NLP performance
such as summarization and machine reading comprehension. We propose a sequence
model with self-adaptive sliding window for accurate and efficient paragraph
segmentation. We also propose an approach to exploit phonetic information,
which significantly improves robustness of spoken document segmentation to ASR
errors. Evaluations are conducted on the English Wiki-727K document
segmentation benchmark, a Chinese Wikipedia-based document segmentation dataset
we created, and an in-house Chinese spoken document dataset. Our proposed model
outperforms the state-of-the-art (SOTA) model based on the same BERT-Base,
increasing segmentation F1 on the English benchmark by 4.2 points and on
Chinese datasets by 4.3-10.1 points, while reducing inference time to less than
1/6 of inference time of the current SOTA.
- Abstract(参考訳): 音声文書の自動音声認識(ASR)システムによって生成された文書には,段落などの構造的アノテーションがなく,可読性を著しく低下させる。
音声文書における段落分割の自動予測は,要約や機械読解など,読みやすさと下流NLPの性能を向上させる可能性がある。
段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。
また,asr誤りに対する音声文書セグメンテーションのロバスト性を大幅に向上させる音声情報活用手法を提案する。
評価は、英語のwiki-727kドキュメントセグメンテーションベンチマーク、中国語のwikipediaベースのドキュメントセグメンテーションデータセット、社内の中国語ドキュメントデータセットで行われます。
提案モデルは,同一のBERTベースに基づく最新技術(SOTA)モデルより優れ,英語ベンチマークでは4.2ポイント,中国語データセットでは4.3-10.1ポイント,推定時間は現在のSOTAの1/6未満に低下する。
関連論文リスト
- Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。
まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。
そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文 参考訳(メタデータ) (2024-10-09T22:53:48Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。
言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文 参考訳(メタデータ) (2023-05-03T18:00:03Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Improving Punctuation Restoration for Speech Transcripts via External
Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。
我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。
提案手法は1:12%のF1スコアでベースラインを上回っている。
論文 参考訳(メタデータ) (2021-10-01T17:40:55Z) - Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。
英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。
訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文 参考訳(メタデータ) (2021-06-23T18:11:32Z) - Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text
Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。
我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文 参考訳(メタデータ) (2020-01-03T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。