論文の概要: Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs
- arxiv url: http://arxiv.org/abs/2603.02353v1
- Date: Mon, 02 Mar 2026 19:51:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.527606
- Title: Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs
- Title(参考訳): 筆記評価におけるAI生成エッセイの検出 - LLM全体での責任ある使用と一般化可能性-
- Authors: Jiangang Hao,
- Abstract要約: 文章評価は、言語能力、コミュニケーションの有効性、分析的推論を評価する上で重要な役割を担っている。
大規模言語モデル(LLM)の急速な進歩により、一貫性のある高品質なエッセイを生成するのがますます簡単になっている。
この章ではまず、AI生成およびAI支援エッセイの現在の状況と、それらの責任ある使用に関するガイドラインについて概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Writing is a foundational literacy skill that underpins effective communication, fosters critical thinking, facilitates learning across disciplines, and enables individuals to organize and articulate complex ideas. Consequently, writing assessment plays a vital role in evaluating language proficiency, communicative effectiveness, and analytical reasoning. The rapid advancement of large language models (LLMs) has made it increasingly easy to generate coherent, high-quality essays, raising significant concerns about the authenticity of student-submitted work. This chapter first provides an overview of the current landscape of detectors for AI-generated and AI-assisted essays, along with guidelines for their responsible use. It then presents empirical analyses to evaluate how well detectors trained on essays from one LLM generalize to identifying essays produced by other LLMs, based on essays generated in response to public GRE writing prompts. These findings provide guidance for developing and retraining detectors for practical applications.
- Abstract(参考訳): 執筆は、効果的なコミュニケーションを支え、批判的思考を育み、規律を越えて学習し、個人が複雑なアイデアを組織化し、明瞭にするための基礎的なリテラシースキルである。
その結果、文章評価は、言語能力、コミュニケーションの有効性、分析的推論を評価する上で重要な役割を担っている。
大規模言語モデル(LLM)の急速な進歩により、一貫性のある高品質なエッセイの作成がますます容易になり、学生が提出した作品の真正性に対する大きな懸念が高まっている。
この章ではまず、AI生成およびAI支援エッセイの現在の状況と、それらの責任ある使用に関するガイドラインについて概説する。
その後、公的なGRE書記のプロンプトに反応して生成されたエッセイに基づいて、あるLLMからのエッセイに基づいて訓練された検出器が、他のLLMによって生成されたエッセイをいかに一般化するかを評価するための経験的分析を提示する。
これらの知見は, 実用化のための検出器の開発と再訓練のためのガイダンスを提供する。
関連論文リスト
- Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review [53.99984738447279]
最近の作業は、このタスクを著者の専門知識と意図を活かした自動テキスト生成として捉えている。
本稿では,著者の明示的な入力,多属性制御,評価誘導による改良を統合したREspGenについて紹介する。
この定式化をサポートするために、アライメントされたレビュー-レスポンス-リビジョン三つ子の最初の大規模データセットであるRe$3$Alignを構築した。
論文 参考訳(メタデータ) (2026-01-19T14:07:10Z) - Exposía: Academic Writing Assessment of Exposés and Peer Feedback [56.428320613219306]
高等教育における文章とフィードバックアセスメントを結びつける最初の公開データセットであるExposaを提示する。
我々はExposaを使って,(1)提案の自動スコアリング,(2)学生レビューの2つのタスクに対して,最先端のオープンソース大言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2026-01-10T11:33:26Z) - Scaling Equitable Reflection Assessment in Education via Large Language Models and Role-Based Feedback Agents [2.825140278227664]
形式的フィードバックは、学生学習の最も効果的な要因の1つである。
大規模または低リソースのコースでは、インストラクターは学生のリフレクションのレビューや応答に必要な時間、スタッフ、帯域幅を欠いていることが多い。
本稿では,5つの協調型ロールベースLLMエージェントを用いて学習者の反射をスコアリングする理論基底システムを提案する。
論文 参考訳(メタデータ) (2025-11-14T09:46:21Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - A Multi-Task Evaluation of LLMs' Processing of Academic Text Input [6.654906601143054]
大規模な言語モデル(LLM)が科学的な発見にどの程度役立つか、特に学術的な査読を支援することは熱い議論である。
我々は、コンピュータサイエンス研究が別々の用語で採用する個々のタスクを、LLMによる学術テキスト入力の処理を評価するためのガイド付きで堅牢なワークフローにまとめる。
コンテンツ再生/比較/修正/修正の4つのタスクをLLMの特定の役割を要求される。
論文 参考訳(メタデータ) (2025-08-15T19:05:57Z) - Who Writes What: Unveiling the Impact of Author Roles on AI-generated Text Detection [44.05134959039957]
本稿では,社会言語学的属性・ジェンダー,CEFR習熟度,学術分野,言語環境に影響を及ぼすAIテキスト検出装置について検討する。
CEFRの習熟度と言語環境は一貫して検出器の精度に影響を与え,性別や学術分野は検出器に依存した効果を示した。
これらの発見は、特定の人口集団に不公平に罰を与えるのを避けるために、社会的に認識されたAIテキストの検出が不可欠であることを示している。
論文 参考訳(メタデータ) (2025-02-18T07:49:31Z) - AI-generated Essays: Characteristics and Implications on Automated Scoring and Academic Integrity [13.371946973050845]
我々は、人気のある大言語モデル(LLM)によって生成されるエッセイの特徴と品質を検証し、ベンチマークする。
本研究は,既存の自動スコアリングシステムの限界を強調し,改善すべき領域を特定した。
LLMの多種多様さがAI生成エッセイの検出の可能性を損なう可能性があるという懸念にもかかわらず、我々の研究結果は、あるモデルから生成されたエッセイに基づいて訓練された検出器が、高い精度で他人のテキストを識別できることをしばしば示している。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents [61.41316121093604]
対話型質問応答(CQA)の文脈における大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。
InsCoQAは、百科事典スタイルの教育内容から派生したもので、複数の文書から手続き的ガイダンスを抽出し、解釈し、正確に要約する能力のモデルを評価する。
また,LLM支援型評価器であるInsEvalを提案する。
論文 参考訳(メタデータ) (2024-10-01T09:10:00Z) - Exploring Knowledge Tracing in Tutor-Student Dialogues using LLMs [49.18567856499736]
本研究では,大規模言語モデル(LLM)が対話学習を支援することができるかどうかを検討する。
我々は,学習者の知識レベルを対話全体にわたって追跡するために,ラベル付きデータに知識追跡(KT)手法を適用した。
我々は,2つの学習対話データセットの実験を行い,従来のKT手法よりも学生の反応の正しさを予測できる新しいLCM-based method LLMKTが優れていることを示す。
論文 参考訳(メタデータ) (2024-09-24T22:31:39Z) - Igniting Language Intelligence: The Hitchhiker's Guide From
Chain-of-Thought Reasoning to Language Agents [80.5213198675411]
大規模言語モデル(LLM)は言語知能の分野を劇的に拡張した。
LLMは興味をそそるチェーン・オブ・シークレット(CoT)推論技術を活用し、答えを導き出す途中の中間ステップを定式化しなければならない。
最近の研究は、自律言語エージェントの開発を促進するためにCoT推論手法を拡張している。
論文 参考訳(メタデータ) (2023-11-20T14:30:55Z) - Creativity Support in the Age of Large Language Models: An Empirical
Study Involving Emerging Writers [33.3564201174124]
経験的ユーザスタディを通じて,プロのライターを支援するため,現代の大規模言語モデルの有用性について検討する。
筆者らは3種類の認知活動の全てにLLMの助けを求める一方で、LLMは翻訳やレビューに役立ちます。
論文 参考訳(メタデータ) (2023-09-22T01:49:36Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。