論文の概要: $k$NNProxy: Efficient Training-Free Proxy Alignment for Black-Box Zero-Shot LLM-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2604.02008v1
- Date: Thu, 02 Apr 2026 13:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.803358
- Title: $k$NNProxy: Efficient Training-Free Proxy Alignment for Black-Box Zero-Shot LLM-Generated Text Detection
- Title(参考訳): $k$NNProxy: Black-Box Zero-Shot LLM-Generated Text Detectionのための効率的なトレーニングフリープロキシアライメント
- Authors: Kahim Wong, Kemou Li, Haiwei Wu, Jiantao Zhou,
- Abstract要約: 既存のLGT検出器は、学習ベースのアプローチとゼロショットメソッドの2つの幅広いクラスに分類される。
ゼロショット法の信頼性は、オフザシェルフプロキシLDMがしばしば未知のソースとよく一致しているという仮定に依存している。
トレーニング不要でクエリ効率のよいプロキシアライメントフレームワークである$k$-nearest neighbor proxy(k$NN Proxy)を提案する。
- 参考スコア(独自算出の注目度): 19.213077720525696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-generated text (LGT) detection is essential for reliable forensic analysis and for mitigating LLM misuse. Existing LGT detectors can generally be categorized into two broad classes: learning-based approaches and zero-shot methods. Compared with learning-based detectors, zero-shot methods are particularly promising because they eliminate the need to train task-specific classifiers. However, the reliability of zero-shot methods fundamentally relies on the assumption that an off-the-shelf proxy LLM is well aligned with the often unknown source LLM, a premise that rarely holds in real-world black-box scenarios. To address this discrepancy, existing proxy alignment methods typically rely on supervised fine-tuning of the proxy or repeated interactions with commercial APIs, thereby increasing deployment costs, exposing detectors to silent API changes, and limiting robustness under domain shift. Motivated by these limitations, we propose the $k$-nearest neighbor proxy ($k$NNProxy), a training-free and query-efficient proxy alignment framework that repurposes the $k$NN language model ($k$NN-LM) retrieval mechanism as a domain adapter for a fixed proxy LLM. Specifically, a lightweight datastore is constructed once from a target-reflective LGT corpus, either via fixed-budget querying or from existing datasets. During inference, nearest-neighbor evidence induces a token-level predictive distribution that is interpolated with the proxy output, yielding an aligned prediction without proxy fine-tuning or per-token API outputs. To improve robustness under domain shift, we extend $k$NNProxy into a mixture of proxies (MoP) that routes each input to a domain-specific datastore for domain-consistent retrieval. Extensive experiments demonstrate strong detection performance of our method.
- Abstract(参考訳): LLM生成テキスト(LGT)検出は、信頼性のある法医学的分析とLLM誤用軽減に不可欠である。
既存のLGT検出器は一般に、学習に基づくアプローチとゼロショット法という2つの幅広いクラスに分類される。
学習ベースの検出器と比較すると、ゼロショット法はタスク固有の分類器を訓練する必要がなくなるため、特に有望である。
しかし、ゼロショットメソッドの信頼性は、オフザシェルフプロキシLDMが、現実のブラックボックスシナリオではめったに持たない、しばしば未知のソースLDMとよく一致しているという仮定に基本的に依存している。
この不一致に対処するため、既存のプロキシアライメントメソッドは一般的に、プロキシの監督された微調整や商用APIとの繰り返しのインタラクションに依存し、デプロイメントコストを増大させ、検出をサイレントAPIの変更に公開し、ドメインシフト時の堅牢性を制限する。
固定プロキシ LLM のドメインアダプタとして $k$NN 言語モデル (k$NN-LM) 検索機構を再利用した,トレーニング不要でクエリ効率のよいプロキシアライメントフレームワークである $k$-nearest neighbor proxy (k$NNProxy) を提案する。
具体的には,目標反射型LGTコーパスから,固定予算クエリあるいは既存のデータセットから,軽量なデータストアを構築する。
推論中、最も近い隣のエビデンスは、プロキシ出力と補間されたトークンレベルの予測分布を誘導し、プロキシの微調整やトークン単位のAPI出力なしで整列予測を生成する。
ドメインシフト下でのロバスト性を改善するために、$k$NNProxyを一連のプロキシ(MoP)に拡張し、各入力をドメイン固有のデータストアにルーティングし、ドメイン一貫性のある検索を行う。
大規模な実験により,本手法の強い検出性能が示された。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Shh, don't say that! Domain Certification in LLMs [124.61851324874627]
大きな言語モデル(LLM)は狭いドメインで制約されたタスクを実行するためにしばしばデプロイされる。
ドメイン認証は、言語モデルのドメイン外動作を正確に特徴付ける保証である。
次に, 逆境界を証明として提供するVALIDを, 単純かつ効果的なアプローチとして提案する。
論文 参考訳(メタデータ) (2025-02-26T17:13:19Z) - BANER: Boundary-Aware LLMs for Few-Shot Named Entity Recognition [12.57768435856206]
本稿では,Few-Shot Named Entity Recognition のための境界認識 LLM という手法を提案する。
一般化されたエンティティスパンに対するエンティティ境界を知覚するLLMの能力を高めるために,境界対応のコントラスト学習戦略を導入する。
ターゲットドメインからソースドメインに情報をアライメントするためにLoRAHubを使用し、適応型クロスドメイン分類機能を強化する。
論文 参考訳(メタデータ) (2024-12-03T07:51:14Z) - Towards Improved Proxy-based Deep Metric Learning via Data-Augmented
Domain Adaptation [15.254782791542329]
本稿では,プロキシに基づくDeep Metric Learningフレームワークを提案する。
本稿では,データ拡張ドメイン適応法(Data-Augmented Domain Adaptation, DADA)を提案する。
一般的なCUB-200-2011を含むベンチマーク実験により,我々の学習アルゴリズムは既存のプロキシ損失を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-01-01T00:10:58Z) - Deep Metric Learning with Chance Constraints [6.965621436414179]
ディープ・メトリック・ラーニング (DML) は, 組込み空間における対方向/クラス間近接違反の期待損失を実証することを目的としている。
我々は,プロキシベースのDMLの最小化は一定の確率制約を満たすことを示し,最悪の場合の一般化に基づく手法は,クラスプロキシの周辺にある最小の球の半径が対応するクラスサンプルの領域全体をカバーすることで特徴付けられることを示した。
論文 参考訳(メタデータ) (2022-09-19T14:50:48Z) - Non-isotropy Regularization for Proxy-based Deep Metric Learning [78.18860829585182]
本稿では,プロキシに基づくDeep Metric Learningのための非等方正則化(mathbbNIR$)を提案する。
これにより、プロキシの周囲のサンプルの非等方分布を明示的に誘導して最適化することが可能になる。
実験では、競争力と最先端のパフォーマンスを達成しながら、$mathbbNIR$の一貫性のある一般化の利点を強調している。
論文 参考訳(メタデータ) (2022-03-16T11:13:20Z) - Fewer is More: A Deep Graph Metric Learning Perspective Using Fewer
Proxies [65.92826041406802]
本稿では,グラフ分類の観点から,プロキシベースのディープグラフメトリックラーニング手法を提案する。
複数のグローバルプロキシを利用して、各クラスの元のデータポイントを総括的に近似する。
本研究では, 近接関係を接地トラス・ラベルに従って調整する, 新たな逆ラベル伝搬アルゴリズムを設計する。
論文 参考訳(メタデータ) (2020-10-26T14:52:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。