論文の概要: Minimizing Mismatch Risk: A Prototype-Based Routing Framework for Zero-shot LLM-generated Text Detection
- arxiv url: http://arxiv.org/abs/2602.01240v1
- Date: Sun, 01 Feb 2026 14:02:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.674501
- Title: Minimizing Mismatch Risk: A Prototype-Based Routing Framework for Zero-shot LLM-generated Text Detection
- Title(参考訳): ミスマッチリスクの最小化:ゼロショットLLM生成テキスト検出のためのプロトタイプベースルーティングフレームワーク
- Authors: Ke Sun, Guangsheng Bao, Han Cui, Yue Zhang,
- Abstract要約: ゼロショット法は、サロゲートモデルを用いて統計的シグネチャを演算することでLLM生成テキストを検出する。
既存のアプローチは通常、未知のソースに関係なく、すべての入力に対して固定サロゲートを使用する。
本稿では,2段階の学習を通じてテキスト検出親和性を学習するプロトタイプベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.739137990102991
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Zero-shot methods detect LLM-generated text by computing statistical signatures using a surrogate model. Existing approaches typically employ a fixed surrogate for all inputs regardless of the unknown source. We systematically examine this design and find that detection performance varies substantially depending on surrogate-source alignment. We observe that while no single surrogate achieves optimal performance universally, a well-matched surrogate typically exists within a diverse pool for any given input. This finding transforms robust detection into a routing problem: selecting the most appropriate surrogate for each input. We propose DetectRouter, a prototype-based framework that learns text-detector affinity through two-stage training. The first stage constructs discriminative prototypes from white-box models; the second generalizes to black-box sources by aligning geometric distances with observed detection scores. Experiments on EvoBench and MAGE benchmarks demonstrate consistent improvements across multiple detection criteria and model families.
- Abstract(参考訳): ゼロショット法は、サロゲートモデルを用いて統計的シグネチャを演算することでLLM生成テキストを検出する。
既存のアプローチは通常、未知のソースに関係なく、すべての入力に対して固定サロゲートを使用する。
本研究では,この設計を体系的に検討し,サロゲートソースアライメントによって検出性能が著しく変化することを確認した。
一つのサロゲートが最適性能を普遍的に達成することはないが、よく整合したサロゲートは任意の入力に対して様々なプール内に存在するのが普通である。
この発見はロバスト検出をルーティング問題に変換し、各入力に対して最も適切なサロゲートを選択する。
本研究では,2段階の学習を通じてテキスト-検出器親和性を学習するプロトタイプベースのフレームワークであるTectRouterを提案する。
第1段階は、ホワイトボックスモデルからの識別プロトタイプを構築し、第2段階は、観測された検出スコアと幾何距離を合わせることでブラックボックスソースに一般化する。
EvoBenchとMAGEベンチマークの実験では、複数の検出基準とモデルファミリで一貫した改善が示されている。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - RepreGuard: Detecting LLM-Generated Text by Revealing Hidden Representation Patterns [50.401907401444404]
大規模言語モデル(LLM)は、誤用を防止し、信頼できるAIシステムを構築するために不可欠である。
本稿では,統計量に基づく効率的な検出手法であるRepreGuardを提案する。
実験結果から、RepreGuardは、平均94.92%のAUROCですべてのベースラインでID(in-distriion)とOOD(OOD)の両方のシナリオでパフォーマンスが向上していることが示された。
論文 参考訳(メタデータ) (2025-08-18T17:59:15Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Learning with Mixture of Prototypes for Out-of-Distribution Detection [25.67011646236146]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングデータから遠く離れたテストサンプルを検出することを目的としている。
サンプルの多様性を捉えるために,各クラスを複数のプロトタイプでモデル化したプロトタイプ混在型学習法(PALM)を提案する。
提案手法はCIFAR-100ベンチマークにおいて93.82の最先端平均AUROC性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T00:52:50Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。