Fugu-MT 論文翻訳(概要): Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation

論文の概要: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation

arxiv url: http://arxiv.org/abs/2107.09278v1
Date: Tue, 20 Jul 2021 06:44:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-21 15:02:45.147515
Title: Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation
Title（参考訳）: 高速音声文書分割のための自己適応スライディングウィンドウを用いたシーケンスモデル
Authors: Qinglin Zhang, Qian Chen, Yali Li, Jiaqing Liu, Wen Wang
Abstract要約: 段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。また,音声情報を活用する手法を提案し,ASR誤りに対する音声文書のセグメンテーションの堅牢性を大幅に向上させる。
参考スコア（独自算出の注目度）: 22.6548277172532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transcripts generated by automatic speech recognition (ASR) systems for spoken documents lack structural annotations such as paragraphs, significantly reducing their readability. Automatically predicting paragraph segmentation for spoken documents may both improve readability and downstream NLP performance such as summarization and machine reading comprehension. We propose a sequence model with self-adaptive sliding window for accurate and efficient paragraph segmentation. We also propose an approach to exploit phonetic information, which significantly improves robustness of spoken document segmentation to ASR errors. Evaluations are conducted on the English Wiki-727K document segmentation benchmark, a Chinese Wikipedia-based document segmentation dataset we created, and an in-house Chinese spoken document dataset. Our proposed model outperforms the state-of-the-art (SOTA) model based on the same BERT-Base, increasing segmentation F1 on the English benchmark by 4.2 points and on Chinese datasets by 4.3-10.1 points, while reducing inference time to less than 1/6 of inference time of the current SOTA.
Abstract（参考訳）: 音声文書の自動音声認識(ASR)システムによって生成された文書には,段落などの構造的アノテーションがなく,可読性を著しく低下させる。音声文書における段落分割の自動予測は,要約や機械読解など,読みやすさと下流NLPの性能を向上させる可能性がある。段落分割の正確かつ効率的な自己適応的スライディングウインドウを用いたシーケンスモデルを提案する。また,asr誤りに対する音声文書セグメンテーションのロバスト性を大幅に向上させる音声情報活用手法を提案する。評価は、英語のwiki-727kドキュメントセグメンテーションベンチマーク、中国語のwikipediaベースのドキュメントセグメンテーションデータセット、社内の中国語ドキュメントデータセットで行われます。提案モデルは,同一のBERTベースに基づく最新技術(SOTA)モデルより優れ,英語ベンチマークでは4.2ポイント,中国語データセットでは4.3-10.1ポイント,推定時間は現在のSOTAの1/6未満に低下する。

関連論文リスト

A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。台湾語マンダリン音声における枠組みの有効性を実証する。
論文参考訳（メタデータ） (2025-06-10T17:30:32Z)
Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-10T21:47:49Z)
Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Localizing Factual Inconsistencies in Attributable Text Generation [91.981439746404]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。まず,人間のアノテーションに対するQASemConsistency法の有効性を示す。そこで我々は,局所的な事実の不整合を自動的に検出するいくつかの手法を実装した。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文参考訳（メタデータ） (2024-09-30T12:36:25Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
Scalable Learning of Latent Language Structure With Logical Offline Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文参考訳（メタデータ） (2023-05-31T16:47:20Z)
Using Language Models on Low-end Hardware [17.33390660481404]
本稿では,ローエンドハードウェア上でテキスト分類ネットワークをトレーニングするための固定言語モデルの有効性について検討する。言語モデルとCNNアーキテクチャを組み合わせて、トピック、感情、ジャンルのシングルラベルとマルチラベルの分類をカバーする8つのデータセットで包括的なベンチマークを作成した。
論文参考訳（メタデータ） (2023-05-03T18:00:03Z)
Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文参考訳（メタデータ） (2022-12-14T13:41:49Z)
LINGUIST: Language Model Instruction Tuning to Generate Annotated Utterances for Intent Classification and Slot Tagging [6.1297730033734945]
分類とスロットタギングのための注釈付きデータを生成する lingUIST (IC+ST) について述べる。 SNIPSデータセットの10ショットの新規な意図設定では、lingUISTは最先端のアプローチを超越している。我々は、多言語インテントおよびスロットラベルデータ生成の出力を制御するために、大規模セク2セックモデルの命令微調整を初めて実施する。
論文参考訳（メタデータ） (2022-09-20T17:59:08Z)
Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文参考訳（メタデータ） (2022-03-15T01:24:51Z)
Improving Punctuation Restoration for Speech Transcripts via External Data [1.4335946386597276]
ノイズのあるテキストに特化して句読解問題に取り組む。我々は、n-gram言語モデルに基づくデータサンプリング手法を導入し、より多くのトレーニングデータをサンプリングする。提案手法は1:12%のF1スコアでベースラインを上回っている。
論文参考訳（メタデータ） (2021-10-01T17:40:55Z)
Dealing with training and test segmentation mismatch: FBK@IWSLT2021 [13.89298686257514]
本稿では,FIWLT 2021オフライン音声翻訳タスクに対するFBKのシステム適用について述べる。英語の音声データをドイツ語のテキストに変換するために訓練されたトランスフォーマーベースのアーキテクチャである。訓練パイプラインは、知識蒸留と2段階の微調整手順により特徴づけられる。
論文参考訳（メタデータ） (2021-06-23T18:11:32Z)
Two-Level Transformer and Auxiliary Coherence Modeling for Improved Text Segmentation [9.416757363901295]
単純だが明示的なコヒーレンスモデリングを用いたテキストセグメンテーションのための新しい教師付きモデルを提案する。我々のモデルは、2つの階層的に連結されたトランスフォーマーネットワークからなるニューラルネットワークであり、文レベルのセグメンテーション目標と、正しい文列と腐敗した文列を区別するコヒーレンス目標を結合するマルチタスク学習モデルである。
論文参考訳（メタデータ） (2020-01-03T17:06:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。