論文の概要: Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education
- arxiv url: http://arxiv.org/abs/2307.12267v2
- Date: Wed, 9 Aug 2023 11:25:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 16:59:59.425601
- Title: Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education
- Title(参考訳): 教育における人間とaiのハイブリッドエッセイのための境界の自動検出
- Authors: Zijie Zeng, Lele Sha, Yuheng Li, Kaixun Yang, Dragan Ga\v{s}evi\'c,
Guanliang Chen
- Abstract要約: 本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent large language models (LLMs), e.g., ChatGPT, have been able to
generate human-like and fluent responses when provided with specific
instructions. While admitting the convenience brought by technological
advancement, educators also have concerns that students might leverage LLMs to
complete their writing assignments and pass them off as their original work.
Although many AI content detection studies have been conducted as a result of
such concerns, most of these prior studies modeled AI content detection as a
classification problem, assuming that a text is either entirely human-written
or entirely AI-generated. In this study, we investigated AI content detection
in a rarely explored yet realistic setting where the text to be detected is
collaboratively written by human and generative LLMs (i.e., hybrid text). We
first formalized the detection task as identifying the transition points
between human-written content and AI-generated content from a given hybrid text
(boundary detection). Then we proposed a two-step approach where we (1)
separated AI-generated content from human-written content during the encoder
training process; and (2) calculated the distances between every two adjacent
prototypes and assumed that the boundaries exist between the two adjacent
prototypes that have the furthest distance from each other. Through extensive
experiments, we observed the following main findings: (1) the proposed approach
consistently outperformed the baseline methods across different experiment
settings; (2) the encoder training process can significantly boost the
performance of the proposed approach; (3) when detecting boundaries for
single-boundary hybrid essays, the proposed approach could be enhanced by
adopting a relatively large prototype size, leading to a 22% improvement in the
In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
- Abstract(参考訳): 最近の大規模言語モデル(llm)、例えばchatgptは、特定の指示が提供されたときに、人間的かつ流動的な応答を生成することができる。
技術進歩によってもたらされる利便性を認める一方で、教育者は、学生がLSMを活用して執筆の課題を完了し、それらを元の作業として引き渡すのではないかと懸念している。
このような懸念から、多くのAIコンテンツ検出研究が実施されているが、これらの先行研究の多くは、テキストが完全に人間書きであるか、完全にAI生成であると仮定して、AIコンテンツ検出を分類問題としてモデル化した。
本研究では,人間と生成的LLM(ハイブリッドテキスト)が共同で検出対象のテキストを書けるような,希少かつ現実的な環境下でのAIコンテンツ検出について検討した。
まず,対象とするハイブリッドテキスト(境界検出)から人書きコンテンツとAI生成コンテンツ間の遷移点を特定することを目的とした。
そこで我々は,(1)エンコーダ訓練中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案し,(2)隣り合う2つのプロトタイプ間の距離を計算し,その境界が互いに最も近い2つのプロトタイプの間に存在すると仮定した。
Through extensive experiments, we observed the following main findings: (1) the proposed approach consistently outperformed the baseline methods across different experiment settings; (2) the encoder training process can significantly boost the performance of the proposed approach; (3) when detecting boundaries for single-boundary hybrid essays, the proposed approach could be enhanced by adopting a relatively large prototype size, leading to a 22% improvement in the In-Domain evaluation and an 18% improvement in the Out-of-Domain evaluation.
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Is Contrasting All You Need? Contrastive Learning for the Detection and Attribution of AI-generated Text [4.902089836908786]
WhosAIは、与えられた入力テキストが人間かAIによって生成されたかを予測するために設計された3重ネットワークコントラスト学習フレームワークである。
提案するフレームワークは,チューリングテストとオーサリングの両タスクにおいて,優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-12T15:44:56Z) - Who Writes the Review, Human or AI? [0.36498648388765503]
本研究では,AIによる書評と人間による書評を正確に区別する手法を提案する。
提案手法は移動学習を利用して,異なるトピック間で生成したテキストを識別する。
実験の結果、元のテキストのソースを検出でき、精度96.86%に達することが示されている。
論文 参考訳(メタデータ) (2024-05-30T17:38:44Z) - Detecting AI-Generated Sentences in Human-AI Collaborative Hybrid Texts: Challenges, Strategies, and Insights [18.30412155877708]
本研究では,人間-AI協調テキストにおける文レベルAI生成テキスト検出の課題について検討する。
CoAuthorデータセットには、人間のライターとインテリジェントな書き込みシステムとのコラボレーションを通じて生成される、多様な、現実的なハイブリッドテキストが含まれている。
論文 参考訳(メタデータ) (2024-03-06T07:25:46Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - DEMASQ: Unmasking the ChatGPT Wordsmith [63.8746084667206]
そこで本研究では,ChatGPT生成内容を正確に識別する効果的なChatGPT検出器DEMASQを提案する。
提案手法は, 人為的, 機械的, 人為的, 人為的, 機械的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人為的, 人
論文 参考訳(メタデータ) (2023-11-08T21:13:05Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。