論文の概要: Towards Automatic Boundary Detection for Human-AI Hybrid Essay in
Education
- arxiv url: http://arxiv.org/abs/2307.12267v1
- Date: Sun, 23 Jul 2023 08:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:00:16.686387
- Title: Towards Automatic Boundary Detection for Human-AI Hybrid Essay in
Education
- Title(参考訳): 教育における人間-aiハイブリッドエッセイの自動境界検出に向けて
- Authors: Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c,
Guanliang Chen
- Abstract要約: 本研究では,教育におけるHuman-AIハイブリッドテキストの自動検出について検討する。
学生が書いたエッセイから文章を部分的に取り除き,ハイブリッドエッセイデータセットを構築した。
人書きコンテンツからAI生成コンテンツを分離する2段階検出手法を提案した。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-AI collaborative writing has been greatly facilitated with the help of
modern large language models (LLM), e.g., ChatGPT. While admitting the
convenience brought by technology advancement, educators also have concerns
that students might leverage LLM to partially complete their writing assignment
and pass off the human-AI hybrid text as their original work. Driven by such
concerns, in this study, we investigated the automatic detection of Human-AI
hybrid text in education, where we formalized the hybrid text detection as a
boundary detection problem, i.e., identifying the transition points between
human-written content and AI-generated content. We constructed a hybrid essay
dataset by partially removing sentences from the original student-written
essays and then instructing ChatGPT to fill in for the incomplete essays. Then
we proposed a two-step detection approach where we (1) Separated AI-generated
content from human-written content during the embedding learning process; and
(2) Calculated the distances between every two adjacent prototypes (a prototype
is the mean of a set of consecutive sentences from the hybrid text in the
embedding space) and assumed that the boundaries exist between the two
prototypes that have the furthest distance from each other. Through extensive
experiments, we summarized the following main findings: (1) The proposed
approach consistently outperformed the baseline methods across different
experiment settings; (2) The embedding learning process (i.e., step 1) can
significantly boost the performance of the proposed approach; (3) When
detecting boundaries for single-boundary hybrid essays, the performance of the
proposed approach could be enhanced by adopting a relatively large prototype
size, leading to a $22$\% improvement (against the second-best baseline method)
in the in-domain setting and an $18$\% improvement in the out-of-domain
setting.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)、例えばChatGPTの助けを借りて、人間とAIの協調的な記述が大幅に促進された。
技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLLMを利用して部分的に執筆課題を完了し、人間とAIのハイブリッドテキストを原著として引き渡すのではないかと懸念している。
そこで本研究では,人文コンテンツとAI生成コンテンツ間の遷移点を識別する境界検出問題として,ハイブリッドテキスト検出を形式化した。
学生が書いたエッセイから文章を部分的に取り除き,不完全なエッセイを補うようChatGPTに指示することで,ハイブリッドエッセイデータセットを構築した。
そこで我々は,(1)埋め込み学習過程において,人文コンテンツからAI生成コンテンツを分離する2段階検出手法を提案し,(2)隣り合う2つのプロトタイプ間の距離(プロトタイプは埋め込み空間におけるハイブリッドテキストからの連続文の集合の平均)を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。
広範な実験を通じて,(1)提案手法が,異なる実験環境におけるベースラインメソッドを一貫して上回っていたこと,(2)埋め込み学習プロセス(ステップ)を要約した。
1) 単一境界ハイブリッドエッセイのバウンダリを検出する場合, 比較的大きなプロトタイプサイズを採用することにより, 提案手法の性能が向上し, ドメイン内設定では22ドル\%, ドメイン外設定では18ドル\%向上した。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Detecting AI-Generated Sentences in Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights [18.30412155877708]
本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。
CoAuthorデータセットには、人間のライターとインテリジェントな書き込みシステムとのコラボレーションを通じて生成される、多様な、現実的なハイブリッドテキストが含まれている。
論文 参考訳(メタデータ) (2024-03-06T07:25:46Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。