論文の概要: Can We Trust LLM Detectors?
- arxiv url: http://arxiv.org/abs/2601.15301v1
- Date: Fri, 09 Jan 2026 04:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.842181
- Title: Can We Trust LLM Detectors?
- Title(参考訳): LLM検出器を信頼できますか?
- Authors: Jivnesh Sandhan, Harshit Jaiswal, Fei Cheng, Yugo Murawaki,
- Abstract要約: トレーニング不要で教師なしのAIテキスト検出器は、分散シフト、見えないジェネレータ、シンプルなスタイリスティックな摂動の下で不安定である。
識別スタイルの埋め込みを学習する教師付きコントラスト学習フレームワークを提案する。
実験では、教師付き検出器はドメイン内を励起するが、ドメイン外を著しく劣化させ、訓練なしの手法はプロキシの選択に非常に敏感であることが示されている。
- 参考スコア(独自算出の注目度): 7.046352335920807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid adoption of LLMs has increased the need for reliable AI text detection, yet existing detectors often fail outside controlled benchmarks. We systematically evaluate 2 dominant paradigms (training-free and supervised) and show that both are brittle under distribution shift, unseen generators, and simple stylistic perturbations. To address these limitations, we propose a supervised contrastive learning (SCL) framework that learns discriminative style embeddings. Experiments show that while supervised detectors excel in-domain, they degrade sharply out-of-domain, and training-free methods remain highly sensitive to proxy choice. Overall, our results expose fundamental challenges in building domain-agnostic detectors. Our code is available at: https://github.com/HARSHITJAIS14/DetectAI
- Abstract(参考訳): LLMの急速な採用により、信頼性の高いAIテキスト検出の必要性が高まっている。
我々は,2つの支配的パラダイム(トレーニングフリー,教師あり)を体系的に評価し,両パラダイムが分散シフト,未知のジェネレータ,単純なスタイリスティックな摂動の下で不安定であることを示す。
これらの制約に対処するために、識別スタイルの埋め込みを学習する教師付きコントラスト学習(SCL)フレームワークを提案する。
実験では、教師付き検出器はドメイン内を励起するが、ドメイン外を著しく劣化させ、訓練なしの手法はプロキシの選択に非常に敏感であることが示されている。
全体として,本研究はドメインに依存しない検出器の構築における根本的な課題を明らかにしている。
私たちのコードは、https://github.com/HARSHITJAIS14/DetectAIで利用可能です。
関連論文リスト
- Advancing Machine-Generated Text Detection from an Easy to Hard Supervision Perspective [108.30620357325559]
既存の機械生成テキスト(MGT)検出手法は、ラベルを「黄金標準」として暗黙的に仮定する
このような不正確な条件下での信頼性の高い監視を実現するための,容易かつハードな強化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-02T15:59:31Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Unpacking Failure Modes of Generative Policies: Runtime Monitoring of Consistency and Progress [31.952925824381325]
本稿では,障害検出を補完する2つのカテゴリに分割するランタイム監視フレームワークを提案する。
視覚言語モデル(VLM)を用いて、ポリシーがタスクを解決しないアクションを確実かつ一貫して行うことを検知する。
時間的一貫性検出とVLMランタイム監視を統一することにより、Sentinelは2つの検出器のみを使用する場合よりも18%の障害を検出する。
論文 参考訳(メタデータ) (2024-10-06T22:13:30Z) - Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations [76.19419888353586]
大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。
我々は,様々な害のラベルを提供するコンパクトで容易に構築できる分類モデルである,検出器のライブラリを作成し,展開する取り組みについて述べる。
論文 参考訳(メタデータ) (2024-03-09T21:07:16Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。