論文の概要: Can We Trust LLM Detectors?
- arxiv url: http://arxiv.org/abs/2601.15301v1
- Date: Fri, 09 Jan 2026 04:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.842181
- Title: Can We Trust LLM Detectors?
- Title(参考訳): LLM検出器を信頼できますか?
- Authors: Jivnesh Sandhan, Harshit Jaiswal, Fei Cheng, Yugo Murawaki,
- Abstract要約: トレーニング不要で教師なしのAIテキスト検出器は、分散シフト、見えないジェネレータ、シンプルなスタイリスティックな摂動の下で不安定である。
識別スタイルの埋め込みを学習する教師付きコントラスト学習フレームワークを提案する。
実験では、教師付き検出器はドメイン内を励起するが、ドメイン外を著しく劣化させ、訓練なしの手法はプロキシの選択に非常に敏感であることが示されている。
- 参考スコア(独自算出の注目度): 7.046352335920807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of LLMs has increased the need for reliable AI text detection, yet existing detectors often fail outside controlled benchmarks. We systematically evaluate 2 dominant paradigms (training-free and supervised) and show that both are brittle under distribution shift, unseen generators, and simple stylistic perturbations. To address these limitations, we propose a supervised contrastive learning (SCL) framework that learns discriminative style embeddings. Experiments show that while supervised detectors excel in-domain, they degrade sharply out-of-domain, and training-free methods remain highly sensitive to proxy choice. Overall, our results expose fundamental challenges in building domain-agnostic detectors. Our code is available at: https://github.com/HARSHITJAIS14/DetectAI
- Abstract(参考訳): LLMの急速な採用により、信頼性の高いAIテキスト検出の必要性が高まっている。
我々は,2つの支配的パラダイム(トレーニングフリー,教師あり)を体系的に評価し,両パラダイムが分散シフト,未知のジェネレータ,単純なスタイリスティックな摂動の下で不安定であることを示す。
これらの制約に対処するために、識別スタイルの埋め込みを学習する教師付きコントラスト学習(SCL)フレームワークを提案する。
実験では、教師付き検出器はドメイン内を励起するが、ドメイン外を著しく劣化させ、訓練なしの手法はプロキシの選択に非常に敏感であることが示されている。
全体として,本研究はドメインに依存しない検出器の構築における根本的な課題を明らかにしている。
私たちのコードは、https://github.com/HARSHITJAIS14/DetectAIで利用可能です。
関連論文リスト
- Advancing Machine-Generated Text Detection from an Easy to Hard Supervision Perspective [108.30620357325559]
既存の機械生成テキスト(MGT)検出手法は、ラベルを「黄金標準」として暗黙的に仮定する
このような不正確な条件下での信頼性の高い監視を実現するための,容易かつハードな強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T15:59:31Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Mechanistic Anomaly Detection for "Quirky" Language Models [1.2581965558321395]
我々は、機械的異常検出を用いて、有能なモデルの監視を強化する。
我々は、トレーニング環境と大きく異なるテスト環境から点をフラグする検出器を訓練する。
検知器はいくつかのタスクで高い差別を達成することができるが、すべてのモデルやタスクで有効な検出器は存在しない。
論文 参考訳(メタデータ) (2025-04-09T06:03:18Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress [31.952925824381325]
本稿では,障害検出を補完する2つのカテゴリに分割するランタイム監視フレームワークを提案する。
視覚言語モデル(VLM)を用いて、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検知する。
時間的一貫性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器のみを使用する場合よりも18%の障害を検出する。
論文 参考訳(メタデータ) (2024-10-06T22:13:30Z) - LLM Detectors Still Fall Short of Real World: Case of LLM-Generated Short News-Like Posts [7.680851067579922]
本稿では、中程度に洗練された攻撃者によって生成される短いニュースのような投稿という、情報操作における重要な設定に焦点を当てる。
既存のLCM検出器は、ゼロショットでも目的訓練でも、その環境での実際の使用準備が整っていないことを実証する。
LLMをまたいで汎用化された目的学習型検出器を開発し、見知らぬ攻撃を行うことができるが、新しい人文テキストへの一般化には失敗する。
論文 参考訳(メタデータ) (2024-09-05T06:55:13Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Unsupervised Out-of-Domain Detection via Pre-trained Transformers [56.689635664358256]
ドメイン外の入力は予測不能なアウトプットを引き起こし、時には破滅的な安全性の問題を引き起こす。
本研究は、教師なしのドメイン内データのみを用いて、ドメイン外サンプルを検出する問題に対処する。
検出精度を高めるために、ドメイン固有の2つの微調整手法が提案されている。
論文 参考訳(メタデータ) (2021-06-02T05:21:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。