論文の概要: Consistent Kernel Change-Point Detection under m-Dependence for Text Segmentation
- arxiv url: http://arxiv.org/abs/2510.03437v1
- Date: Fri, 03 Oct 2025 18:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.043815
- Title: Consistent Kernel Change-Point Detection under m-Dependence for Text Segmentation
- Title(参考訳): テキストセグメンテーションにおけるm依存下のカーネル変更点検出
- Authors: Jairo Diaz-Rodriguez, Mumin Jia,
- Abstract要約: カーネル変更点検出(KCPD)は、複雑なデータの構造変化を特定するために広く使われているツールである。
軽微な追加仮定の下で検出された変化点数における整合性および位置における弱整合性を証明した。
現代埋め込みを用いたテキストセグメンテーションのためのKCPDの実証的研究を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kernel change-point detection (KCPD) has become a widely used tool for identifying structural changes in complex data. While existing theory establishes consistency under independence assumptions, real-world sequential data such as text exhibits strong dependencies. We establish new guarantees for KCPD under $m$-dependent data: specifically, we prove consistency in the number of detected change points and weak consistency in their locations under mild additional assumptions. We perform an LLM-based simulation that generates synthetic $m$-dependent text to validate the asymptotics. To complement these results, we present the first comprehensive empirical study of KCPD for text segmentation with modern embeddings. Across diverse text datasets, KCPD with text embeddings outperforms baselines in standard text segmentation metrics. We demonstrate through a case study on Taylor Swift's tweets that KCPD not only provides strong theoretical and simulated reliability but also practical effectiveness for text segmentation tasks.
- Abstract(参考訳): カーネル変更点検出(KCPD)は、複雑なデータの構造変化を特定するために広く使われているツールである。
既存の理論は独立性の前提の下で一貫性を確立するが、テキストのような実世界のシーケンシャルデータは強い依存関係を示す。
我々は、$m$依存データの下で、KCPDの新たな保証を確立する。具体的には、検出された変更点数における一貫性と、軽度の追加仮定の下で、その位置における弱い一貫性を証明します。
我々は,合成$m$依存テキストを生成するLLMに基づくシミュレーションを行い,その漸近性を検証した。
これらの結果を補完するために,現代埋め込みを用いたテキストセグメンテーションのためのKCPDの総合的研究を行った。
多様なテキストデータセット、テキスト埋め込みを備えたKCPDは、標準テキストセグメンテーションメトリクスのベースラインを上回っている。
我々はTaylor Swift氏のツイートのケーススタディを通じて、KCPDは強力な理論的、シミュレーションされた信頼性を提供するだけでなく、テキストセグメンテーションタスクに実用的な効果をもたらすことを実証した。
関連論文リスト
- RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Statistical Depth for Ranking and Characterizing Transformer-Based Text
Embeddings [1.321681963474017]
統計深度は、観測されたk次元分布に対して集中度を測定することによって、k次元オブジェクトをランク付けする関数である。
本研究では, 変圧器によるテキスト埋め込み, 変圧器によるテキスト埋め込み (TTE) の分布測定に統計的深度を導入し, NLPパイプラインのモデリングと分布推定の両方にこの深度を実用的に利用した。
論文 参考訳(メタデータ) (2023-10-23T15:02:44Z) - APPLS: Evaluating Evaluation Metrics for Plain Language Summarization [18.379461020500525]
本研究では,Plain Language Summarization (PLS) のメトリクス評価を目的とした,詳細なメタ評価テストベッド APPLS を提案する。
従来の作業から4つのPLS基準を特定し,これらの基準に対応する摂動のセットを定義した。
APPLSを用いて、自動スコア、語彙特徴、LLMプロンプトに基づく評価を含む14のメトリクスのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2023-05-23T17:59:19Z) - Conditional Independence Testing via Latent Representation Learning [2.566492438263125]
LCIT(Latent representation based Conditional Independence Test)は、表現学習に基づく条件付き独立テストのための新しい非パラメトリック手法である。
我々の主な貢献は、Z が与えられた X と Y の独立性をテストするための生成的枠組みの提案である。
論文 参考訳(メタデータ) (2022-09-04T07:16:03Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Conceptual Text Region Network: Cognition-Inspired Accurate Scene Text
Detection [7.716899861923764]
概念テキスト領域ネットワーク (Conceptual Text Region Network, CTRNet) を提案する。
CTRNetは、優れた数学的特性を継承する認知ベースのツールのクラスであるCTR(Conceptual Text Regions)を利用して、洗練されたラベルデザインを可能にします。
CTRNetは、ベンチマークCTW1500、Total-Text、MSRA-TD500、ICDAR 2015データセットで最新のパフォーマンスを達成し、最大2.0%のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2021-03-16T16:28:33Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。