論文の概要: MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text
- arxiv url: http://arxiv.org/abs/2605.06903v1
- Date: Thu, 07 May 2026 20:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.595136
- Title: MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text
- Title(参考訳): MELD:AI生成テキストのためのマルチタスク等価学習検出器
- Authors: Chenjun Li, Cheng Wan, Johannes C. Paetzold,
- Abstract要約: MELDはAI生成テキストのデプロイ可能な検出器で、補助的な監視によってバイナリ検出を強化する。
一般のRAIDリーダーボードでは、MELDは最強のオープンソース検出器である。
MELDは、ALD-evalで1%のFPRで99.9%のTPRを達成するが、多くのベースラインは急激に低下する。
- 参考スコア(独自算出の注目度): 5.175537650981894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are now embedded in everyday writing workflows, making reliable AI-generated text detection important for academic integrity, content moderation, and provenance tracking. In practice, however, a detector must do more than achieve high aggregate AUROC on clean, in-distribution human and AI text: it should remain robust to attacks and adversarial rewrites, transfer to unseen generators and domains, and operate at low false-positive rates (FPR). Most existing detectors optimize a single AI/Human objective, giving the representation little incentive to learn generator, attack, or domain structure once the binary task saturates. We introduce MELD (Multi-Task Equilibrated Learning Detector), a deployable detector for AI-generated text that enriches binary detection with auxiliary supervision. MELD attaches generator-family, attack-type, and source-domain heads to a shared encoder, and balances the four losses with learned homoscedastic uncertainty weights. To improve robustness, an EMA teacher predicts on clean inputs while an attack-augmented student is distilled toward the teacher. MELD further uses a hard-negative pairwise ranking loss to enlarge the score margin between AI-generated texts and the most confusable human texts. At inference, all auxiliary heads are discarded, giving MELD the same interface and cost as a standard detector. On the public RAID leaderboard, MELD is the strongest open-source detector and is competitive with leading commercial models, especially under attack and at low FPR. Across standard held-out benchmarks, MELD matches or outperforms supervised baselines. We further introduce MELD-eval, a held-out evaluation pool built from recent chat models released by four major LLM providers. Without additional finetuning, MELD achieves 99.9% TPR at 1% FPR on MELD-eval, while many baselines degrade sharply.
- Abstract(参考訳): 大規模な言語モデルは、日々の書き込みワークフローに埋め込まれており、学術的完全性、コンテンツモデレーション、プロファイランストラッキングにおいて、信頼性の高いAI生成テキスト検出が重要である。
しかし実際には、検知器は、クリーンで非配布の人間とAIのテキスト上で高い集約AUROCを達成する以上のことをしなければならない:攻撃や敵の書き換え、見えないジェネレータやドメインへの転送、低い偽陽性率(FPR)で動作すること。
ほとんどの既存の検出器は、単一のAI/Human目標を最適化し、バイナリタスクが飽和するとジェネレータ、アタック、ドメイン構造を学ぶためのインセンティブをほとんど与えない。
我々は,AI生成テキストのデプロイ可能な検出器であるMELD(Multi-Task Equilibrated Learning Detector)を導入する。
MELDは、ジェネレータファミリー、アタックタイプ、ソースドメインヘッドを共有エンコーダにアタッチし、4つの損失を学習されたホモシステマティック不確実性重みとバランスさせる。
堅牢性を向上させるため、EMA教師は、攻撃強化された生徒が教師に向かって蒸留されている間、クリーンな入力を予測する。
MELDはさらに、AI生成したテキストと最も不愉快な人間のテキストの間のスコアマージンを拡大するために、ハードネガティブなペアワイズランキングの損失を使用する。
推測では、全ての補助ヘッドは破棄され、MELDは標準検出器と同じインターフェースとコストを与える。
一般のRAIDリーダーボードでは、MELDは最強のオープンソース検出器であり、特に攻撃や低FPRにおいて、主要な商用モデルと競合している。
標準のホールドアウトベンチマーク、MELDマッチ、あるいは教師付きベースラインよりも優れています。
さらに,4大LLMプロバイダが最近リリースしたチャットモデルから構築したホールドアウト評価プールであるMELD-evalについても紹介する。
追加の微調整なしでは、MELD-evalでは1%のFPRで99.9%のTPRを達成するが、多くのベースラインは急激に低下する。
関連論文リスト
- Reasoning-Aware AIGC Detection via Alignment and Reinforcement [55.09684020007737]
REVEALは、分類の前に解釈可能な推論チェーンを生成するフレームワークである。
複数のベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-04-21T07:29:55Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - MOSAIC: Multiple Observers Spotting AI Content [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
本研究では,人文テキストから人工的に生成したテキストを自動的に識別する手法を提案する。
種々のジェネレータLSMを用いて実験を行った結果,本手法は各モデルの強度を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Are AI-Generated Text Detectors Robust to Adversarial Perturbations? [9.001160538237372]
AI生成テキスト(AIGT)の現在の検出器は、敵の摂動に対する堅牢性を欠いている。
本稿では,既存のAIGT検出手法の堅牢性について検討し,新しい検出器であるシームズキャリブレーション・リコンストラクション・ネットワーク(SCRN)を導入する。
SCRNは、テキストからのノイズの追加と除去に再構成ネットワークを使用し、局所的な摂動に対して堅牢な意味表現を抽出する。
論文 参考訳(メタデータ) (2024-06-03T10:21:48Z) - RADAR: Robust AI-Text Detection via Adversarial Learning [69.5883095262619]
RADARはパラフラザーと検出器の対向訓練に基づいている。
パラフレーズの目標は、AIテキスト検出を避けるために現実的なコンテンツを生成することである。
RADARは検出器からのフィードバックを使ってパラフラザーを更新する。
論文 参考訳(メタデータ) (2023-07-07T21:13:27Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。