論文の概要: Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race
- arxiv url: http://arxiv.org/abs/2605.02620v1
- Date: Mon, 04 May 2026 14:10:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.32286
- Title: Beating the Style Detector: Three Hours of Agentic Research on the AI-Text Arms Race
- Title(参考訳): AI・テキスト・アームズ・レースのエージェント・リサーチの3時間
- Authors: Andreas Maier, Moritz Zaiss, Siming Bayer,
- Abstract要約: 実験的なNLP研究を再現するには数週間を要した。
全コード、648ドル(約6,800円)の原案、訓練された検出器、診断、および敵の軌道がリリースされている。
- 参考スコア(独自算出の注目度): 3.9508043303559828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducing an empirical NLP study used to take weeks. Given the released data and a modern agentic-research harness, we redo every experiment of a recent ACL\,2026 study on personal-style post-editing of LLM drafts -- and add three new ones -- with the human investigator acting only as a reviewer-in-the-loop. We reproduce all seven preregistered hypotheses and recover the paper's headline correlation between perceived self-similarity and embedding-measured self-similarity to three decimal places ($r{=}{+}0.244$, $p{<}10^{-8}$, $n{=}648$). Under a leakage-free held-out protocol, GPT-5.5 and Claude\,Opus\,4.7 close $71$--$75\,\%$ of the style gap to the same-author ceiling on $324$ paired tasks, against $24\,\%$ for the human post-edit, and beat the human post-edit on $\sim$$80\,\%$ of tasks. We then frame the same data as an AI-text detection arms race. A leave-authors-out linear SVM on LUAR-MUD embeddings reaches AUC $0.93$--$1.00$ across approaches; six diagnostics show that GPT-5.5 detection is mostly a length confound while Opus detection is a genuine stylistic signature. Given $T{=}20$ feedback iterations against the frozen detector, an Opus agent flips two of five held-out test mimics to the human half-space and shrinks every margin by an order of magnitude. With moderate effort against a known detector, a frontier LLM can already efficiently lower its own AI-detection probability. All code, $648$ mimic drafts, trained detectors, diagnostics, and adversarial trajectories are released.
- Abstract(参考訳): 実験的なNLP研究を再現するには数週間を要した。
公表されたデータと現代のエージェント・リサーチ・ハーネスを踏まえると、私たちは最近のALC\,2026の研究を全て再検討し、LLMドラフトの個人スタイルのポスト編集を行い、人間調査官がレビュー・イン・ザ・ループとしてのみ行動する新しい3つのものを追加しました。
予備登録された7つの仮説を全て再現し、認識された自己相似性と埋め込み測定された自己相似性の間の紙の見出し関係を3つの十進の場所(r{=}{+}0.244$, $p{<}10^{-8}$, $n{=}648$)に再現する。
GPT-5.5 と Claude\,4.7 はリークフリーのホールドアウトプロトコルの下で、$1$--75\,\%$と$24$のペアタスクで同じ著者の天井のスタイルギャップを、$24$のポストエジットで$24\,\%$と、$80\,\%のタスクで人間のポストエジットを打ち負かした。
そして、AIテキスト検出アームレースと同じデータをフレーム化する。
LUAR-MUD埋め込み上の左書きの線形SVMは、アプローチ間のAUC$0.93$--1.00$に達する。
凍った検出器に対してT{=}20$のフィードバックが与えられたとき、Opusのエージェントは5つのうち2つを人間のハーフスペースに反転させ、すべてのマージンを桁違いに縮める。
既知の検出器に対する適度な努力により、フロンティアLSMは、自身のAI検出確率を効率的に低下させることができる。
全コード、648ドル(約6,800円)の原案、訓練された検出器、診断、および敵の軌道がリリースされている。
関連論文リスト
- Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats [0.01116979912801043]
我々は、GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3、および盲目、解答、偽解、そして模範的な条件下でのヒトマーカーに対する委員会集計を比較した。
n=771ドルのブラインド大学試験の質問に対して、モデルは差別的妥当性の強い分数平均絶対誤差(fMAE)$approx 0.22$を達成する。
$n=55$スクリプト全体において、盲目のAIマーキングは人間のマーキングよりも厳格で可変的であり、差別的妥当性はすでに貧弱である。
論文 参考訳(メタデータ) (2026-03-16T02:09:06Z) - Spectral Sentinel: Scalable Byzantine-Robust Decentralized Federated Learning via Sketched Random Matrix Theory on Blockchain [0.0]
ビザンチンのクライアントは、不均一な(Non-IID)データの下での濃度勾配を中毒する。
本稿では,ビザンチン検出・集約フレームワークであるSpectral Sentinelを提案する。
Polygonネットワーク上でブロックチェーンを統合することで,完全なシステムを実現しています。
論文 参考訳(メタデータ) (2025-12-14T09:43:03Z) - $\texttt{Droid}$: A Resource Suite for AI-Generated Code Detection [75.6327970381944]
$textbf$textttDroidCollection$$は、機械生成コード検出器のトレーニングと評価のためのオープンデータスイートである。
これには100万以上のコードサンプル、7つのプログラミング言語、43のコーディングモデルからの出力、3つの実世界のコーディングドメインが含まれている。
また、$textttDroidCollection$$でマルチタスクでトレーニングされたエンコーダのみの検出器も開発しています。
論文 参考訳(メタデータ) (2025-07-11T12:19:06Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。