論文の概要: Sure! Here's a short and concise title for your paper: "Contamination in Generated Text Detection Benchmarks"
- arxiv url: http://arxiv.org/abs/2511.09200v1
- Date: Thu, 13 Nov 2025 01:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.46066
- Title: Sure! Here's a short and concise title for your paper: "Contamination in Generated Text Detection Benchmarks"
- Title(参考訳): もちろんです! 論文の簡潔で簡潔なタイトルは、"Contamination in Generated Text Detection Benchmarks"です。
- Authors: Philipp Dingfelder, Christian Riess,
- Abstract要約: 大規模な言語モデルは、多くのアプリケーションでますます使われています。
不正使用を防止するため、AI生成したテキストを検出できることが望ましい。
このような検出器の訓練と評価は、適切なベンチマークデータセットに依存する。
- 参考スコア(独自算出の注目度): 6.898843708099658
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are increasingly used for many applications. To prevent illicit use, it is desirable to be able to detect AI-generated text. Training and evaluation of such detectors critically depend on suitable benchmark datasets. Several groups took on the tedious work of collecting, curating, and publishing large and diverse datasets for this task. However, it remains an open challenge to ensure high quality in all relevant aspects of such a dataset. For example, the DetectRL benchmark exhibits relatively simple patterns of AI-generation in 98.5% of the Claude-LLM data. These patterns may include introductory words such as "Sure! Here is the academic article abstract:", or instances where the LLM rejects the prompted task. In this work, we demonstrate that detectors trained on such data use such patterns as shortcuts, which facilitates spoofing attacks on the trained detectors. We consequently reprocessed the DetectRL dataset with several cleansing operations. Experiments show that such data cleansing makes direct attacks more difficult. The reprocessed dataset is publicly available.
- Abstract(参考訳): 大規模な言語モデルは、多くのアプリケーションでますます使われています。
不正使用を防止するため、AI生成したテキストを検出できることが望ましい。
このような検出器の訓練と評価は、適切なベンチマークデータセットに依存する。
いくつかのグループは、このタスクのために大規模で多様なデータセットを収集し、キュレーションし、公開するという面倒な作業に取り組んだ。
しかしながら、そのようなデータセットのすべての関連する側面において、高品質を保証することは、依然としてオープンな課題である。
例えば、DectorRLベンチマークでは、Claude-LLMデータの98.5%で、AI生成の比較的単純なパターンが示されている。
これらのパターンには、"Sure!
本研究では,このようなデータを用いて訓練された検出器がショートカットなどのパターンを用いて,訓練された検出器に対するスプーフィング攻撃を促進することを実証する。
その結果、いくつかのクリーニング操作でTreatorRLデータセットを再処理した。
実験により、このようなデータのクリーニングがダイレクトアタックをより難しくすることが示された。
再処理されたデータセットが公開されている。
関連論文リスト
- DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios [38.952481877244644]
我々は,最新技術(SOTA)検出技術でさえも,このタスクにおいてまだ性能が劣っていることを強調した新しいベンチマークであるTectorRLを提案する。
人気のある大規模言語モデル(LLM)を使用して、実世界のアプリケーションとの整合性を向上するデータを生成しました。
我々は,書式,モデルタイプ,攻撃方法,テキストの長さ,および実世界の人間の筆記因子が,さまざまな種類の検知器に与える影響について分析した。
論文 参考訳(メタデータ) (2024-10-31T09:01:25Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - ConDA: Contrastive Domain Adaptation for AI-generated Text Detection [17.8787054992985]
大規模言語モデル(LLM)は、ニュース記事のテキスト生成にますます利用されている。
これらのLSMを大規模に偽情報を生成できる潜在的な悪意のある性質を考えると、このようなAI生成テキストのための効果的な検出器を構築することが重要である。
本研究では、AI生成したニューステキストの検出において、このデータ問題に取り組み、その問題を教師なしドメイン適応タスクとしてフレーム化する。
論文 参考訳(メタデータ) (2023-09-07T19:51:30Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。