論文の概要: Unsupervised Text Segmentation via Kernel Change-Point Detection on Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2601.18788v1
- Date: Mon, 26 Jan 2026 18:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.023632
- Title: Unsupervised Text Segmentation via Kernel Change-Point Detection on Sentence Embeddings
- Title(参考訳): 文埋め込みにおけるカーネル変更点検出による教師なしテキストセグメンテーション
- Authors: Mumin Jia, Jairo Diaz-Rodriguez,
- Abstract要約: 境界ラベルは高価で主観的で、ドメイン間での転送や粒度の選択に失敗することが多いため、教師なしのテキストセグメンテーションが不可欠である。
我々は,文を埋め込みベクトルとして表現し,ペナル化KCPDの目的を最小化して境界を推定する訓練自由な手法であるEmbed-KCPDを提案する。
Taylor Swiftのツイートに関するケーススタディでは、Embed-KCPDは強力な理論的保証、シミュレーションされた信頼性、テキストセグメンテーションの実践的有効性を組み合わせている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised text segmentation is crucial because boundary labels are expensive, subjective, and often fail to transfer across domains and granularity choices. We propose Embed-KCPD, a training-free method that represents sentences as embedding vectors and estimates boundaries by minimizing a penalized KCPD objective. Beyond the algorithmic instantiation, we develop, to our knowledge, the first dependence-aware theory for KCPD under $m$-dependent sequences, a finite-memory abstraction of short-range dependence common in language. We prove an oracle inequality for the population penalized risk and a localization guarantee showing that each true change point is recovered within a window that is small relative to segment length. To connect theory to practice, we introduce an LLM-based simulation framework that generates synthetic documents with controlled finite-memory dependence and known boundaries, validating the predicted scaling behavior. Across standard segmentation benchmarks, Embed-KCPD often outperforms strong unsupervised baselines. A case study on Taylor Swift's tweets illustrates that Embed-KCPD combines strong theoretical guarantees, simulated reliability, and practical effectiveness for text segmentation.
- Abstract(参考訳): 境界ラベルは高価で主観的で、ドメイン間での転送や粒度の選択に失敗することが多いため、教師なしのテキストセグメンテーションが不可欠である。
我々は,文を埋め込みベクトルとして表現し,ペナル化KCPDの目的を最小化して境界を推定する訓練自由な手法であるEmbed-KCPDを提案する。
アルゴリズムのインスタンス化を超えて、我々はKCPDに対する最初の依存認識理論を$m$依存シーケンスの下で開発し、言語に共通する短距離依存の有限メモリ抽象化を行う。
集団のペナル化リスクに対するオラクルの不等式を証明し、各真の変化点がセグメント長に対して小さいウィンドウ内で復元されることを示す。
理論と実践を結びつけるために、有限メモリ依存と既知の境界を制御した合成文書を生成するLLMベースのシミュレーションフレームワークを導入し、予測スケーリング挙動を検証する。
標準セグメンテーションベンチマーク全体において、Embed-KCPDは強い教師なしベースラインを上回っている。
Taylor Swiftのツイートに関するケーススタディでは、Embed-KCPDは強力な理論的保証、シミュレーションされた信頼性、テキストセグメンテーションの実践的有効性を組み合わせている。
関連論文リスト
- Codebook-Injected Dialogue Segmentation for Multi-Utterance Constructs Annotation: LLM-Assisted and Gold-Label-Free Evaluation [0.17240671897505613]
対話法(DA)のアノテーションは、コミュニケーションや教育の意図を、個々の発話や旋回に局所化したものとして扱う。
本稿では,下流の基準値に基づいて境界決定を行うコードブック注入セグメンテーションを提案する。
DA認識はテキストのみのベースラインよりも内部的に一貫性のあるセグメントを生成する。
論文 参考訳(メタデータ) (2026-01-17T14:17:13Z) - Accelerate Speculative Decoding with Sparse Computation in Verification [49.74839681322316]
投機的復号化は、複数のドラフトトークンを並列に検証することにより、自動回帰言語モデル推論を加速する。
既存のスペーシフィケーション方式は主にトークン・バイ・トーケンの自己回帰復号化のために設計されている。
そこで本研究では,注目度,FFN,MoEを両立させるスパース検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-26T07:53:41Z) - On the Limits of Test-Time Compute: Sequential Reward Filtering for Better Inference [71.09125259964684]
テスト時計算(TTC)は、大規模言語モデル(LLM)の拡張のパラダイムとして、ますます顕著になっている。
本稿では,高次世代のみを文脈に選択的に組み込む単純な手順である報酬フィルタシーケンシャル推論について検討する。
理論的には、報酬フィルタによる逐次推論は標準TTCパラダイムよりも厳密な保証が得られることを示す。
論文 参考訳(メタデータ) (2025-12-04T08:21:33Z) - Consistent Kernel Change-Point Detection under m-Dependence for Text Segmentation [0.0]
カーネル変更点検出(KCPD)は、複雑なデータの構造変化を特定するために広く使われているツールである。
軽微な追加仮定の下で検出された変化点数における整合性および位置における弱整合性を証明した。
現代埋め込みを用いたテキストセグメンテーションのためのKCPDの実証的研究を行った。
論文 参考訳(メタデータ) (2025-10-03T18:57:22Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - READER: Retrieval-Assisted Drafter for Efficient LLM Inference [0.0386965802948046]
自己回帰言語モデルはトークンシーケンスよりも分解された確率をインスタンス化するが、その厳密なシーケンシャルなデコーディングプロセスは、遅延推論に固有の低いバウンドを課す。
このボトルネックは、大規模生成モデルのスケーラブルなデプロイにおける中心的な障害として現れています。
本稿では,補助的ドラフトモデルのトレーニングを回避した投機的復号化フレームワークREADERを提案する。
論文 参考訳(メタデータ) (2025-08-12T16:47:48Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Neighbor-Aware Calibration of Segmentation Networks with Penalty-Based
Constraints [19.897181782914437]
本稿では,ロジット値の等式制約に基づく基本的かつ単純な解を提案し,強制制約と罰則の重みを明示的に制御する。
我々のアプローチは、広範囲のディープセグメンテーションネットワークのトレーニングに利用できる。
論文 参考訳(メタデータ) (2024-01-25T19:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。