論文の概要: Measuring Human Involvement in AI-Generated Text: A Case Study on Academic Writing
- arxiv url: http://arxiv.org/abs/2506.03501v1
- Date: Wed, 04 Jun 2025 02:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.109465
- Title: Measuring Human Involvement in AI-Generated Text: A Case Study on Academic Writing
- Title(参考訳): AI生成テキストにおける人間関与の測定:学術著作のケーススタディ
- Authors: Yuchen Guo, Zhicheng Dou, Huy H. Nguyen, Ching-Chun Chang, Saku Sugawara, Isao Echizen,
- Abstract要約: 調査によると、大学生の30%近くが生成AIを使って学術論文やレポートを書く。
ほとんどの対策は、AI生成テキストの検出をバイナリ分類タスクとして扱い、堅牢性に欠ける。
このアプローチは、人間と機械のコラボレーションが主流になりつつあるにもかかわらず、コンテンツ生成への人間の関与を見落としている。
本稿では,BERTScoreを用いて生成プロセスにおける人間の関与を測定する手法と,トークン分類タスクで訓練されたマルチタスクRoBERTaベースの回帰器を提案する。
- 参考スコア(独自算出の注目度): 39.5254201243129
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content creation has dramatically progressed with the rapid advancement of large language models like ChatGPT and Claude. While this progress has greatly enhanced various aspects of life and work, it has also negatively affected certain areas of society. A recent survey revealed that nearly 30% of college students use generative AI to help write academic papers and reports. Most countermeasures treat the detection of AI-generated text as a binary classification task and thus lack robustness. This approach overlooks human involvement in the generation of content even though human-machine collaboration is becoming mainstream. Besides generating entire texts, people may use machines to complete or revise texts. Such human involvement varies case by case, which makes binary classification a less than satisfactory approach. We refer to this situation as participation detection obfuscation. We propose using BERTScore as a metric to measure human involvement in the generation process and a multi-task RoBERTa-based regressor trained on a token classification task to address this problem. To evaluate the effectiveness of this approach, we simulated academic-based scenarios and created a continuous dataset reflecting various levels of human involvement. All of the existing detectors we examined failed to detect the level of human involvement on this dataset. Our method, however, succeeded (F1 score of 0.9423 and a regressor mean squared error of 0.004). Moreover, it demonstrated some generalizability across generative models. Our code is available at https://github.com/gyc-nii/CAS-CS-and-dual-head-detector
- Abstract(参考訳): コンテンツ作成はChatGPTやClaudeといった大規模言語モデルの急速な進歩で劇的に進歩した。
この進歩は、生活と仕事の様々な側面を大幅に強化してきたが、社会の特定の領域にも悪影響を及ぼした。
最近の調査によると、大学生の30%近くが生成AIを使って学術論文やレポートを書くのを助けている。
ほとんどの対策は、AI生成テキストの検出をバイナリ分類タスクとして扱い、堅牢性に欠ける。
このアプローチは、人間と機械のコラボレーションが主流になりつつあるにもかかわらず、コンテンツ生成への人間の関与を見落としている。
テキスト全体の生成に加えて、マシンを使用してテキストの補完や修正を行うこともできる。
このような人間の関与はケースによって異なるため、バイナリ分類は満足のいくアプローチよりも少ない。
この状況を参加者検出難読化と呼ぶ。
本稿では, BERTScore を生成プロセスへの人間関与を測定する指標として, トークン分類タスクで訓練したマルチタスク RoBERTa ベースの回帰器を提案する。
このアプローチの有効性を評価するため,学術的なシナリオをシミュレートし,さまざまなレベルの人間関与を反映した連続データセットを構築した。
調査した既存の検出器はすべて、このデータセットに対する人間の関与のレベルを検知できなかった。
しかし,本手法は成功した(F1スコアは0.9423,後進平均2乗誤差は0.004)。
さらに、生成モデルにまたがるいくつかの一般化可能性を示した。
私たちのコードはhttps://github.com/gyc-nii/CAS-CS-and-dual-head-detectorで利用可能です。
関連論文リスト
- Beyond human subjectivity and error: a novel AI grading system [67.410870290301]
オープンエンドの質問の格付けは、教育における高い努力と高いインパクトの課題である。
AI技術の最近のブレークスルーは、このような自動化を促進するかもしれないが、大規模に実証されていない。
本稿では,新しい自動短解階調システム(ASAG)を提案する。
論文 参考訳(メタデータ) (2024-05-07T13:49:59Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Generative AI in Writing Research Papers: A New Type of Algorithmic Bias
and Uncertainty in Scholarly Work [0.38850145898707145]
大規模言語モデル(LLM)と生成AIツールは、バイアスを特定し、対処する上での課題を提示している。
生成型AIツールは、不正な一般化、幻覚、レッド・チーム・プロンプトのような敵攻撃を目標とする可能性がある。
研究原稿の執筆過程に生成AIを組み込むことで,新しいタイプの文脈依存型アルゴリズムバイアスがもたらされることがわかった。
論文 参考訳(メタデータ) (2023-12-04T04:05:04Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z) - Real or Fake Text?: Investigating Human Ability to Detect Boundaries
Between Human-Written and Machine-Generated Text [23.622347443796183]
我々は、テキストが人間の書き起こしから始まり、最先端のニューラルネットワークモデルによって生成されるようになる、より現実的な状況について研究する。
この課題でアノテータはしばしば苦労するが、アノテータのスキルにはかなりのばらつきがあり、適切なインセンティブが与えられると、アノテータは時間とともに改善できることを示す。
論文 参考訳(メタデータ) (2022-12-24T06:40:25Z) - SESCORE2: Learning Text Generation Evaluation via Synthesizing Realistic
Mistakes [93.19166902594168]
テキスト生成評価のためのモデルベースメトリックを学習するための自己教師型アプローチSESCORE2を提案する。
鍵となる概念は、コーパスから取得した文を摂動することで、現実的なモデルミスを合成することである。
3言語にわたる4つのテキスト生成タスクにおいて,SESCORE2とそれ以前の手法を評価する。
論文 参考訳(メタデータ) (2022-12-19T09:02:16Z) - Not All Errors are Equal: Learning Text Generation Metrics using
Stratified Error Synthesis [79.18261352971284]
人間のアノテーションを必要とせずに、人間の判断と高い相関関係を持つモデルベースの計量であるSESCOREを紹介する。
既存の指標に対してSESCOREを評価し,そのスコアと人間の評価との関係を比較検討した。
SESCOREは、人間による注釈付きトレーニングデータを受け取らず、最高の教師付きメトリックCOMETに匹敵するパフォーマンスを達成している。
論文 参考訳(メタデータ) (2022-10-10T22:30:26Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。