論文の概要: Black-box Detection of LLM-generated Text Using Generalized Jensen-Shannon Divergence
- arxiv url: http://arxiv.org/abs/2510.07500v1
- Date: Wed, 08 Oct 2025 19:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.706798
- Title: Black-box Detection of LLM-generated Text Using Generalized Jensen-Shannon Divergence
- Title(参考訳): 一般化Jensen-Shannon分散を用いたLCM生成テキストのブラックボックス検出
- Authors: Shuangyi Chen, Ashish Khisti,
- Abstract要約: SurpMarkは基準に基づく検出器で、トークンのサブプライムのダイナミックスによって経路を要約する。
我々は、原則的離散化基準を証明し、決定統計の正規性を確立する。
- 参考スコア(独自算出の注目度): 13.753284358668315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study black-box detection of machine-generated text under practical constraints: the scoring model (proxy LM) may mismatch the unknown source model, and per-input contrastive generation is costly. We propose SurpMark, a reference-based detector that summarizes a passage by the dynamics of its token surprisals. SurpMark quantizes surprisals into interpretable states, estimates a state-transition matrix for the test text, and scores it via a generalized Jensen-Shannon (GJS) gap between the test transitions and two fixed references (human vs. machine) built once from historical corpora. We prove a principled discretization criterion and establish the asymptotic normality of the decision statistic. Empirically, across multiple datasets, source models, and scenarios, SurpMark consistently matches or surpasses baselines; our experiments corroborate the statistic's asymptotic normality, and ablations validate the effectiveness of the proposed discretization.
- Abstract(参考訳): 評価モデル(Proxy LM)は未知のソースモデルとミスマッチし、インプット毎のコントラスト生成はコストがかかる。
本稿では,SurpMarkを提案する。SurpMarkは,トークンのサブプライサルのダイナミックスによるパスを要約した参照ベースの検出器である。
SurpMarkは、仮定を解釈可能な状態に量子化し、テストテキストの状態遷移行列を推定し、テスト遷移と歴史的コーパスから一度構築された2つの固定参照(人間対マシン)の間の一般化されたジェンセン・シャノン(GJS)ギャップを介してスコアする。
我々は、原則的な離散化基準を証明し、決定統計学の漸近正規性を確立する。
経験的には、複数のデータセット、ソースモデル、シナリオにまたがって、SurpMarkは一貫して基準線を上回り、我々の実験は統計学の漸近的正規性と相関し、提案された離散化の有効性を検証する。
関連論文リスト
- A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。
最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。
そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文 参考訳(メタデータ) (2025-06-10T12:41:26Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Permutation-Based Rank Test in the Presence of Discretization and Application in Causal Discovery with Mixed Data [16.892960387325743]
心理学的な研究において、ある人の特定の個性の次元の連続的なレベルは、離散化後にのみ測定できる。
変数が離散化されても統計的誤差を適切に制御できる混合データ置換型ランクテスト(MPRT)を提案する。
MPRTは離散化の有無でType Iエラーを効果的に制御できるが、以前の方法では制御できない。
論文 参考訳(メタデータ) (2025-01-31T09:47:26Z) - Testing for the Markov Property in Time Series via Deep Conditional
Generative Learning [6.7826352751791985]
本研究では,高次元時系列におけるマルコフ特性の非パラメトリックテストを提案する。
テストは型Iを誤って制御し、出力が近づいていることを示します。
非パラメトリック推定を用いるが、パラメトリック収束率を達成する2つの頑健なテスト統計を導出する。
論文 参考訳(メタデータ) (2023-05-30T17:32:00Z) - Near-Optimal Non-Parametric Sequential Tests and Confidence Sequences
with Possibly Dependent Observations [44.71254888821376]
我々は、一般的な非データ生成プロセスの下で、最初のタイプIエラーと予測リジェクション時間保証を提供する。
本研究では, 平均処理効果など, 方程式を推定することによって定義されるパラメータの推測に, 結果を適用する方法を示す。
論文 参考訳(メタデータ) (2022-12-29T18:37:08Z) - Explanation Method for Anomaly Detection on Mixed Numerical and
Categorical Spaces [0.9543943371833464]
EADMNC (混合数値およびカテゴリー空間における説明可能な異常検出)
これは、元のモデルで得られた予測に説明可能性を追加する。
本稿では,大規模な実世界のデータ,特にネットワーク侵入検出領域における実験結果について報告する。
論文 参考訳(メタデータ) (2022-09-09T08:20:13Z) - A hypothesis-driven method based on machine learning for neuroimaging
data analysis [0.0]
脳画像の空間パターンを識別するための機械学習アプローチは、特徴抽出と線形分類タスクに限定されている。
従来の一般線形モデル(GLM)の推定は,一変量分類タスクに関係していることを示す。
我々は, 線形支持ベクトル回帰(SVR-iGLM)から得られるパラメータに基づいて, GLMを用いた改良された統計的検定を導出する。
マルチサイトイニシアチブの実際のデータを用いて、提案されたMLEベースの推論は、統計的パワーと偽陽性の制御を示し、正規Gよりも優れている。
論文 参考訳(メタデータ) (2022-02-09T11:13:02Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。