論文の概要: Stylometry Analysis of Human and Machine Text for Academic Integrity
- arxiv url: http://arxiv.org/abs/2601.01225v1
- Date: Sat, 03 Jan 2026 16:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.129777
- Title: Stylometry Analysis of Human and Machine Text for Academic Integrity
- Title(参考訳): 学術的統合のための人文・機械文のスティロメトリ解析
- Authors: Hezam Albaqami, Muhammad Asif Ayub, Nasir Ahmad, Yaseen Ahmad, Mohammed M. Alqahtani, Abdullah M. Algamdi, Almoaid A. Owaidah, Kashif Ahmad,
- Abstract要約: この研究は、盗作、創作、教育コンテンツの著者の検証など、学術的完全性への挑戦に対処する。
著者の帰属とスタイル変化の検出を通じて,学生のコンテンツを認証するための自然言語処理(NLP)ベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.6558127228160233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work addresses critical challenges to academic integrity, including plagiarism, fabrication, and verification of authorship of educational content, by proposing a Natural Language Processing (NLP)-based framework for authenticating students' content through author attribution and style change detection. Despite some initial efforts, several aspects of the topic are yet to be explored. In contrast to existing solutions, the paper provides a comprehensive analysis of the topic by targeting four relevant tasks, including (i) classification of human and machine text, (ii) differentiating in single and multi-authored documents, (iii) author change detection within multi-authored documents, and (iv) author recognition in collaboratively produced documents. The solutions proposed for the tasks are evaluated on two datasets generated with Gemini using two different prompts, including a normal and a strict set of instructions. During experiments, some reduction in the performance of the proposed solutions is observed on the dataset generated through the strict prompt, demonstrating the complexities involved in detecting machine-generated text with cleverly crafted prompts. The generated datasets, code, and other relevant materials are made publicly available on GitHub, which are expected to provide a baseline for future research in the domain.
- Abstract(参考訳): 本研究は,NLP(Natural Language Processing, 自然言語処理)を基盤として, 著者の帰属やスタイル変化の検出を通じて, 学生のコンテンツを認証する枠組みを提案することによって, 学際的整合性に対する重要な課題に対処する。
初期の努力にもかかわらず、このトピックのいくつかの側面はまだ検討されていない。
既存のソリューションとは対照的に,本論文では,4つの課題を対象とすることで,トピックを包括的に分析する。
(i)人文・機械文の分類
(二)単元文書及び多元文書の識別
三 複数著作物における著作者変更検出、及び
(4)共同作成文書における著者の認識
提案した解は、通常の命令と厳密な命令を含む2つの異なるプロンプトを用いて、Geminiで生成された2つのデータセットで評価される。
実験中、厳密なプロンプトによって生成されたデータセット上で、提案手法の性能の若干の低下が観察され、巧妙なプロンプトによる機械生成テキストの検出にかかわる複雑さが示された。
生成されたデータセット、コード、その他の関連資料はGitHubで公開されている。
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Stylometry Analysis of Multi-authored Documents for Authorship and
Author Style Change Detection [2.117778717665161]
本稿では, 単一文書と複数文書の分類 (i) 単一変更検出 (ii) 単一変更検出 (iii) 複数文書における複数著者切替検出 (iii) の3つの課題について検討する。
我々は,いくつかの最先端自然言語処理(NLP)アルゴリズムと重み付け最適化技術を統合したメリットベース融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T18:36:41Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - FacTool: Factuality Detection in Generative AI -- A Tool Augmented
Framework for Multi-Task and Multi-Domain Scenarios [87.12753459582116]
より広い範囲のタスクは、生成モデルによって処理されると、事実エラーを含むリスクが増大する。
大規模言語モデルにより生成されたテキストの事実誤りを検出するためのタスクおよびドメインに依存しないフレームワークであるFacToolを提案する。
論文 参考訳(メタデータ) (2023-07-25T14:20:51Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。