論文の概要: SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation
- arxiv url: http://arxiv.org/abs/2601.03474v1
- Date: Wed, 07 Jan 2026 00:02:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.095605
- Title: SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation
- Title(参考訳): SegNSP: 線形テキストセグメンテーションの次の文予測を再検討
- Authors: José Isidro, Filipe Cunha, Purificação Silvano, Alípio Jorge, Nuno Guimarães, Sérgio Nunes, Ricardo Campos,
- Abstract要約: 我々は,次の文予測(NSP)タスクとして線形テキストセグメンテーションをフレーミングするSegNSPを紹介する。
ラベルに依存しない NSP アプローチを提案し,次の文が明示的な話題ラベルを必要とせずに現在の話題を継続するかどうかを予測する。
CitiLink-MinutesとWikiSectionという2つのデータセットのベースラインに対して,我々のモデルを評価する。
- 参考スコア(独自算出の注目度): 5.476083747178194
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Linear text segmentation is a long-standing problem in natural language processing (NLP), focused on dividing continuous text into coherent and semantically meaningful units. Despite its importance, the task remains challenging due to the complexity of defining topic boundaries, the variability in discourse structure, and the need to balance local coherence with global context. These difficulties hinder downstream applications such as summarization, information retrieval, and question answering. In this work, we introduce SegNSP, framing linear text segmentation as a next sentence prediction (NSP) task. Although NSP has largely been abandoned in modern pre-training, its explicit modeling of sentence-to-sentence continuity makes it a natural fit for detecting topic boundaries. We propose a label-agnostic NSP approach, which predicts whether the next sentence continues the current topic without requiring explicit topic labels, and enhance it with a segmentation-aware loss combined with harder negative sampling to better capture discourse continuity. Unlike recent proposals that leverage NSP alongside auxiliary topic classification, our approach avoids task-specific supervision. We evaluate our model against established baselines on two datasets, CitiLink-Minutes, for which we establish the first segmentation benchmark, and WikiSection. On CitiLink-Minutes, SegNSP achieves a B-$F_1$ of 0.79, closely aligning with human-annotated topic transitions, while on WikiSection it attains a B-F$_1$ of 0.65, outperforming the strongest reproducible baseline, TopSeg, by 0.17 absolute points. These results demonstrate competitive and robust performance, highlighting the effectiveness of modeling sentence-to-sentence continuity for improving segmentation quality and supporting downstream NLP applications.
- Abstract(参考訳): リニアテキストセグメンテーション(Linear text segmentation)は、自然言語処理(NLP)における長年の問題であり、連続テキストを一貫性のある意味論的意味のある単位に分割することに焦点を当てている。
その重要性にもかかわらず、トピック境界の定義の複雑さ、談話構造における可変性、局所的な一貫性とグローバルな文脈とのバランスの必要性により、この課題は依然として困難なままである。
これらの困難は、要約、情報検索、質問応答といった下流の応用を妨げる。
本研究では,次の文予測(NSP)タスクとして線形テキストセグメンテーションをフレーミングするSegNSPを紹介する。
NSPは、現代の事前学習においてほとんど放棄されているが、文間連続性の明示的なモデリングは、トピック境界を検出するのに自然に適している。
ラベルに依存しない NSP アプローチを提案する。これは,次の文が特定の話題ラベルを必要とせずに現在の話題を継続するかどうかを予測し,段差認識損失と難解なネガティブサンプリングを併用して,談話の連続性をよりよく把握する。
NSPを補助的トピック分類と併用する最近の提案とは異なり,本手法はタスク固有の監視を回避する。
我々は,CitiLink-Minutesという2つのデータセット上で確立されたベースラインに対して,最初のセグメンテーションベンチマークを構築したモデルとWikiSectionを評価した。
CitiLink-Minutesでは、SegNSPはB-$F_1$の0.79を達成するが、WikiSectionではB-F$_1$の0.65に達し、再現性の高いベースラインであるTopSegよりも0.17絶対点高い。
これらの結果から, 文間連続性をモデル化し, セグメンテーション品質の向上と, 下流NLPアプリケーションのサポートに有効であることを示す。
関連論文リスト
- Paragraph Segmentation Revisited: Towards a Standard Task for Structuring Speech [61.00008468914252]
本稿では,音声処理とテキストセグメンテーションの交点における3つのギャップを埋める,欠落した構造化ステップとして,段落セグメンテーションを再考する。
ベンチマークは、伝統的に段落のセグメンテーションが後処理の一部ではない未調査の音声領域に焦点を当てている。
第二に、制約付き復号法を提案し、大言語モデルが原文を保存しながら段落を挿入できるようにする。
第三に、コンパクトモデル(MiniSeg)が最先端の精度を実現し、階層的に拡張されると、最小計算コストで章や段落を共同で予測できることが示される。
論文 参考訳(メタデータ) (2025-12-30T23:29:51Z) - BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance [54.683384204063934]
大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-08T07:46:26Z) - Revisiting Network Perturbation for Semi-Supervised Semantic Segmentation [14.086285011643733]
我々は、ラベルのないデータに対して、既存の弱-強整合正則化を拡張するために、ネットワーク摂動の新しいアプローチを導入する。
既存の研究では珍しく,ラベル付きデータに対する揮発性学習プロセスを提案する。
論文 参考訳(メタデータ) (2024-11-08T03:23:39Z) - Topic Segmentation of Semi-Structured and Unstructured Conversational
Datasets using Language Models [3.7908886926768344]
トピックセグメンテーションに関する現在の研究は、しばしば構造化されたテキストのセグメンテーションに焦点を当てている。
本研究では,非構造化チャットと半構造化チャットを分割する場合に,クロスエントロピーと再重み付きクロスエントロピー損失関数の頑健な代替としてFocal Loss関数を提案する。
論文 参考訳(メタデータ) (2023-10-26T03:37:51Z) - Topic-driven Distant Supervision Framework for Macro-level Discourse
Parsing [72.14449502499535]
テキストの内部修辞構造を解析する作業は、自然言語処理において難しい問題である。
近年のニューラルモデルの発展にもかかわらず、トレーニングのための大規模で高品質なコーパスの欠如は大きな障害となっている。
近年の研究では、遠方の監督を用いてこの制限を克服しようと試みている。
論文 参考訳(メタデータ) (2023-05-23T07:13:51Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - Neural Sequence Segmentation as Determining the Leftmost Segments [25.378188980430256]
自然言語文をセグメントレベルで段階的に分割する新しい枠組みを提案する。
セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。
3つのデータセットにまたがる構文的チャンキングと中国語のパート・オブ・スパイチ・タギングに関する広範な実験を行った。
論文 参考訳(メタデータ) (2021-04-15T03:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。