Fugu-MT 論文翻訳(概要): Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text

論文の概要: Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text

arxiv url: http://arxiv.org/abs/2605.06294v1
Date: Thu, 07 May 2026 13:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.870493
Title: Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text
Title（参考訳）: Log-Likelihood, Simpson's Paradox, and the Detection of Machine-Generated Text
Authors: Tom Kempton, Viktor Drobnyi, Maeve Madigan, Stuart Burrell,
Abstract要約: 本研究では,人間と機械のテキストを区別するトークンレベルの信号が,検出モデルの隠れた空間にわたって一様でないことを示す。ベイズ決定理論に基づく学習的局所校正ステップを導入する。この単一の介入は、すべてのベースライン検出器と、私たちが考慮しているすべてのデータセット間の検出性能を劇的に、一貫して改善します。
参考スコア（独自算出の注目度）: 0.039998518782208774
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The ability to reliably distinguish human-written text from that generated by large language models is of profound societal importance. The dominant approach to this problem exploits the likelihood hypothesis: that machine-generated text should appear more probable to a detector language model than human-written text. However, we demonstrate that the token-level signal distinguishing human and machine text is non-uniform across the hidden space of the detector model, and naively averaging likelihood-based token scores across regions with fundamentally different statistical structure, as most detectors do, causes a form of Simpson's paradox: a strong local signal is destroyed by inappropriate aggregation. To correct for this, we introduce a learned local calibration step grounded in Bayesian decision theory. Rather than aggregating raw token scores, we first learn lightweight predictors of the score distributions conditioned on position in hidden space, and aggregate calibrated log-likelihood ratios instead. This single intervention dramatically and consistently improves detection performance across all baseline detectors and all datasets we consider. For example, our calibrated variant of Fast-DetectGPT improves AUROC from $0.63$ to $0.85$ on GPT-5.4 text, and a locally-calibrated DMAP detector we introduce achieves state-of-the-art performance across the board. That said, our central contribution is not a new detector, but a precise diagnosis of a significant cause of under-performance of existing detectors and a principled, modular remedy compatible with any token-averaging pipeline. This will serve as a foundation for the community to build upon, with natural avenues including richer distributional models, improved calibration strategies, and principled ensembling with hidden-space geometry signals via the full Bayes-optimal decision rule.
Abstract（参考訳）: 大規模言語モデルが生成するテキストと人間の文章を確実に区別する能力は、社会的に重要な意味を持つ。機械が生成したテキストは、人によるテキストよりも検出言語モデルの方が確率が高いと仮定する。しかしながら、人や機械のテキストを区別するトークンレベルの信号は、検出器モデルの隠れた空間をまたいで一様ではなく、ほとんどの検出器が行うように、統計的構造が根本的に異なる領域を平均化する確率ベースのトークンスコアは、シムプソンのパラドックスの形を生じさせ、強い局所信号は不適切なアグリゲーションによって破壊される。これを修正するために、ベイズ決定理論に基づく学習された局所キャリブレーションステップを導入する。生トークンのスコアを集約する代わりに、隠れ空間における位置で条件付けられたスコア分布の軽量な予測器を学習し、代わりにログライクな比率を集計する。この単一の介入は、すべてのベースライン検出器と、私たちが考慮しているすべてのデータセット間の検出性能を劇的に、一貫して改善します。例えば、Fast-DetectGPTの校正版では、GPT-5.4テキストでAUROCを0.63ドルから0.85ドルに改善しています。とはいえ、私たちの中心的な貢献は新しい検出器ではなく、既存の検出器の過小評価の重大な原因の正確な診断と、トークンを吸収するパイプラインと互換性のある原則化されたモジュラーな修復である。これは、よりリッチな分布モデル、キャリブレーション戦略の改善、ベイズ最適決定規則を通した隠れ空間幾何学信号との原則的なアンサンブルを含む、コミュニティが構築する基盤として機能する。

関連論文リスト

Alignment Imprint: Zero-Shot AI-Generated Text Detection via Provable Preference Discrepancy [51.887915969023965]
現代のLarge Language Models (LLMs) がアライメントされ、測定可能な分布インプリントが残されていることを示す。高エントロピー領域における不安定性を軽減するため、ログライクなアライメント・アライメント・プレフレパシー(LAPD)を導入する。 LAPDはアライメントインプリントに基づく標準化された情報重み統計である。
論文参考訳（メタデータ） (2026-04-18T09:12:24Z)
Beyond Raw Detection Scores: Markov-Informed Calibration for Boosting Machine-Generated Text Detection [105.14032334647932]
機械生成テキスト(MGT)は偽情報やフィッシングなどのリスクを生じさせ、信頼性の高い検出の必要性を強調している。 MGTの統計的に区別可能な特徴を抽出するメトリックベース法は、オーバーフィットしがちな複雑なモデルベース法よりも実用的であることが多い。本稿では,2つのコンテキスト検出スコアの関係をモデル化したマルコフ情報を用いたスコアキャリブレーション手法を提案する。
論文参考訳（メタデータ） (2026-02-08T16:06:12Z)
How Sampling Affects the Detectability of Machine-written texts: A Comprehensive Study [39.866323800060066]
大きな言語モデル(LLM)はますます一般的になってきており、人間による内容とは区別がつかないことが多い。最近の多くの検出器は精度がほぼ完璧であると報告しており、AUROCのスコアは99%を超えている。本研究では,サンプリングに基づく復号化が検出可能性に与える影響について検討する。
論文参考訳（メタデータ） (2025-10-15T15:36:45Z)
When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection [64.23509202768945]
パーソナライズされた設定における検出ロバスト性を評価するための最初のベンチマークであるデータセットを紹介する。実験により, 個別設定における検出器間の性能差が大きいことが示された。パーソナライズされた設定における検出性能変化を簡易かつ信頼性の高い予測方法を提案する。
論文参考訳（メタデータ） (2025-10-14T13:10:23Z)
CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。 ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文参考訳（メタデータ） (2025-10-02T02:14:33Z)
Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It) [5.789169343514737]
スタイル的な特徴空間は、検出を防ぐために最適化された言語モデルからのサンプルを確実に検出するために使用することができる。我々は,文体的特徴空間における人書きと機械書きのギャップを埋めることを目的とした,新しい言い換えのアプローチを探求する。
論文参考訳（メタデータ） (2025-05-20T16:55:44Z)
TempTest: Local Normalization Distortion and the Detection of Machine-generated Text [0.0]
本稿では,生成言語モデルに完全に依存した機械生成テキストを検出する手法を提案する。これは、温度やトップkサンプリングのようなデコード戦略が条件付き確率測度を正規化する方法の欠陥を目標にすることで達成される。我々は,様々な言語モデル,データセット,通過距離の異なる,白と黒のボックス設定での検出器の評価を行った。
論文参考訳（メタデータ） (2025-03-26T10:56:59Z)
Fast-DetectGPT: Efficient Zero-Shot Detection of Machine-Generated Text via Conditional Probability Curvature [33.84718903572477]
大規模言語モデル(LLM)は、流動的でコジェントなコンテンツを生成する能力を示している。信頼できるAIシステムを構築するためには、マシン生成コンテンツと人間によるコンテンツとを区別することが不可欠である。 Fast-DetectGPTは、ディテクターGPTの摂動ステップを、より効率的なサンプリングステップで置き換える最適化されたゼロショット検出器である。
論文参考訳（メタデータ） (2023-10-08T11:41:28Z)
DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文参考訳（メタデータ） (2023-01-26T18:44:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。