論文の概要: Assessing LLM Text Detection in Educational Contexts: Does Human Contribution Affect Detection?
- arxiv url: http://arxiv.org/abs/2508.08096v1
- Date: Mon, 11 Aug 2025 15:34:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.178558
- Title: Assessing LLM Text Detection in Educational Contexts: Does Human Contribution Affect Detection?
- Title(参考訳): 教育的文脈におけるLLMテキスト検出の評価:人的貢献は検出に影響を及ぼすか?
- Authors: Lukas Gehring, Benjamin Paaßen,
- Abstract要約: 大規模言語モデル(LLM)は、学生が自動的にテキストを生成するのをこれまで以上に容易にしている。
本稿では,様々な最先端検出器の性能を教育的文脈で評価する。
ほとんどの検出器は、中間的学生の貢献レベルのテキストを正確に分類するのに苦労している。
- 参考スコア(独自算出の注目度): 1.7034813545878587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and their increased accessibility have made it easier than ever for students to automatically generate texts, posing new challenges for educational institutions. To enforce norms of academic integrity and ensure students' learning, learning analytics methods to automatically detect LLM-generated text appear increasingly appealing. This paper benchmarks the performance of different state-of-the-art detectors in educational contexts, introducing a novel dataset, called Generative Essay Detection in Education (GEDE), containing over 900 student-written essays and over 12,500 LLM-generated essays from various domains. To capture the diversity of LLM usage practices in generating text, we propose the concept of contribution levels, representing students' contribution to a given assignment. These levels range from purely human-written texts, to slightly LLM-improved versions, to fully LLM-generated texts, and finally to active attacks on the detector by "humanizing" generated texts. We show that most detectors struggle to accurately classify texts of intermediate student contribution levels, like LLM-improved human-written texts. Detectors are particularly likely to produce false positives, which is problematic in educational settings where false suspicions can severely impact students' lives. Our dataset, code, and additional supplementary materials are publicly available at https://github.com/lukasgehring/Assessing-LLM-Text-Detection-in-Educational-Contexts.
- Abstract(参考訳): 近年のLarge Language Models(LLM)の進歩とアクセシビリティの向上により、学生がテキストを自動的に生成しやすくなり、教育機関にとって新たな課題となっている。
学術的整合性の規範を強制し、生徒の学習を確実にするために、LLM生成テキストを自動的に検出する学習分析手法がますます魅力的になってきている。
本稿では、900以上の学生によるエッセイと12,500以上のLLMエッセイを含む、GEDE(Generative Essay Detection in Education)と呼ばれる新しいデータセットを導入することにより、教育現場におけるさまざまな最先端検出器の性能をベンチマークする。
テキスト生成におけるLLM活用実践の多様性を捉えるために,学生の課題への貢献を代表して,コントリビューションレベルの概念を提案する。
これらのレベルは、純粋に人間書きのテキストから、わずかにLLM改善版まで、完全なLLM生成テキストまで、そして最後に、生成されたテキストを「人間化」することで検出器に対する攻撃まで様々である。
LLMを改良した人文テキストのように、ほとんどの検出器は、中間的学生の貢献レベルのテキストを正確に分類するのに苦労している。
これは、偽疑が生徒の生活に深刻な影響を及ぼす教育環境において問題となる。
データセット、コード、追加の補助資料はhttps://github.com/lukasgehring/Assessing-LLM-Text-detection-in-Educational-Contextsで公開されています。
関連論文リスト
- Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [65.27124213266491]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection [39.254432080406346]
タスク指向の制約 -- 命令に自然に含まれ、検出回避とは無関係な制約 -- でさえ、既存の強力な検出器は検出性能に大きなばらつきを持つ。
実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。
論文 参考訳(メタデータ) (2023-11-14T18:32:52Z) - A Survey on LLM-Generated Text Detection: Necessity, Methods, and Future Directions [39.36381851190369]
LLM生成テキストを検出できる検出器を開発する必要がある。
このことは、LLMが生成するコンテンツの有害な影響から、LLMの潜在的な誤用や、芸術的表現やソーシャルネットワークのような保護領域の軽減に不可欠である。
この検出器技術は、ウォーターマーキング技術、統計ベースの検出器、神経ベース検出器、そして人間の支援手法の革新によって、最近顕著な進歩をみせている。
論文 参考訳(メタデータ) (2023-10-23T09:01:13Z) - OUTFOX: LLM-Generated Essay Detection Through In-Context Learning with
Adversarially Generated Examples [44.118047780553006]
OUTFOXは、LLM生成テキスト検出器の堅牢性を改善するフレームワークであり、検出器と攻撃者の両方が互いの出力を考慮できるようにする。
実験の結果,提案した検出器は攻撃者が生成したテキストの検出性能を最大41.3点F1スコアまで向上させることがわかった。
この検出器は最先端の検知性能を示し、96.9ポイントのF1スコアまで到達し、既存の検出器を非攻撃テキストで打ち負かした。
論文 参考訳(メタデータ) (2023-07-21T17:40:47Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection [56.513637720967566]
大規模言語モデル(LLM)は、盗作、eコマースプラットフォームへの偽レビューの設置、炎症性偽ツイートなどの誤用のリスクを引き起こすテキストを生成することができる。
既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。
ブラックボックスモデル生成テキストの深い内在特性を抽出する。
論文 参考訳(メタデータ) (2023-05-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。