論文の概要: Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech
- arxiv url: http://arxiv.org/abs/2512.24517v1
- Date: Tue, 30 Dec 2025 23:29:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.513575
- Title: Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech
- Title(参考訳): パラグラフセグメンテーション再考 : 音声の構造化のための標準課題に向けて
- Authors: Fabian Retkowski, Alexander Waibel,
- Abstract要約: 本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。
ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。
第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。
第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
- 参考スコア(独自算出の注目度): 61.00008468914252
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automatic speech transcripts are often delivered as unstructured word streams that impede readability and repurposing. We recast paragraph segmentation as the missing structuring step and fill three gaps at the intersection of speech processing and text segmentation. First, we establish TEDPara (human-annotated TED talks) and YTSegPara (YouTube videos with synthetic labels) as the first benchmarks for the paragraph segmentation task. The benchmarks focus on the underexplored speech domain, where paragraph segmentation has traditionally not been part of post-processing, while also contributing to the wider text segmentation field, which still lacks robust and naturalistic benchmarks. Second, we propose a constrained-decoding formulation that lets large language models insert paragraph breaks while preserving the original transcript, enabling faithful, sentence-aligned evaluation. Third, we show that a compact model (MiniSeg) attains state-of-the-art accuracy and, when extended hierarchically, jointly predicts chapters and paragraphs with minimal computational cost. Together, our resources and methods establish paragraph segmentation as a standardized, practical task in speech processing.
- Abstract(参考訳): 自動音声書き起こしは、可読性と再生を妨げる非構造化ワードストリームとしてしばしば配信される。
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。
まず、段落セグメンテーションタスクの最初のベンチマークとしてTEDParaとYTSegPara(合成ラベル付きYouTubeビデオ)を設置する。
ベンチマークは、伝統的に段落セグメンテーションがポストプロセッシングの一部ではなく、より広いテキストセグメンテーション分野に寄与し、なおも堅牢で自然主義的なベンチマークを欠いている、未調査の音声領域に焦点を当てている。
第二に,大言語モデルが原文を保存しながら段落を挿入し,忠実で文順な評価を可能にする制約付き復号式を提案する。
第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
提案手法は,音声処理における標準化された実践的課題として,段落分割を確立する。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Long-Form End-to-End Speech Translation via Latent Alignment
Segmentation [6.153530338207679]
現在の同時音声翻訳モデルは、最大数秒間しか音声を処理できない。
本稿では,低レイテンシなエンドツーエンド音声翻訳のための新しいセグメンテーション手法を提案する。
提案手法は, 新たな計算コストを伴わずに, 最先端の品質を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-20T15:10:12Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Toward Unifying Text Segmentation and Long Document Summarization [31.084738269628748]
文章・音声文書の抽出要約において,部分分割が果たす役割について検討する。
本手法は,要約とセグメンテーションを同時に行うことによって,頑健な文表現を学習する。
以上の結果から,本モデルは,公開ベンチマーク上での最先端性能を達成できるだけでなく,異種間転送性も向上できることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T22:07:10Z) - Structured Summarization: Unified Text Segmentation and Segment Labeling
as a Generation Task [16.155438404910043]
長い文書や会話を処理できる1つのエンコーダ・デコーダニューラルネットワークを提案する。
我々は、組み合わせたタスクを純粋な生成タスクとして解決する方法をうまく示す。
本結果は,テキストのセグメンテーションとセグメントラベリングを全体として検討する上で,強力なケースを確立した。
論文 参考訳(メタデータ) (2022-09-28T01:08:50Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。