論文の概要: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts
- arxiv url: http://arxiv.org/abs/2402.14838v1
- Date: Mon, 19 Feb 2024 00:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:38:43.887837
- Title: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts
- Title(参考訳): SemEval-2024 Task 8におけるRFBES:AI生成・人文テキストの識別のための構文的・意味的特徴の調査
- Authors: Mohammad Heydari Rad, Farhan Farsi, Shayan Bali, Romina Etezadi,
Mehrnoush Shamsfard
- Abstract要約: 本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。
マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
- 参考スコア(独自算出の注目度): 0.8437187555622164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, the usage of Large Language Models (LLMs) has increased, and LLMs
have been used to generate texts in different languages and for different
tasks. Additionally, due to the participation of remarkable companies such as
Google and OpenAI, LLMs are now more accessible, and people can easily use
them. However, an important issue is how we can detect AI-generated texts from
human-written ones. In this article, we have investigated the problem of
AI-generated text detection from two different aspects: semantics and syntax.
Finally, we presented an AI model that can distinguish AI-generated texts from
human-written ones with high accuracy on both multilingual and monolingual
tasks using the M4 dataset. According to our results, using a semantic approach
would be more helpful for detection. However, there is a lot of room for
improvement in the syntactic approach, and it would be a good approach for
future work.
- Abstract(参考訳): 現在では、大規模言語モデル(llm)の使用が増加し、llmは異なる言語と異なるタスクでテキストを生成するのに使われている。
加えて、GoogleやOpenAIといった注目すべき企業が参加しているため、LLMはよりアクセスしやすくなり、簡単に使用できるようになった。
しかし、重要な問題は、人間が書いたテキストからAIが生成したテキストを検出する方法である。
本稿では,aiが生成するテキスト検出の問題を,意味論と構文という2つの異なる側面から検討する。
最後に、M4データセットを用いて、多言語タスクと単言語タスクの両方で高精度にAI生成テキストと人書きテキストを区別できるAIモデルを提示した。
私たちの結果によると、セマンティックなアプローチを使うことは、検出にもっと役立つでしょう。
しかし、構文的アプローチには改善の余地がたくさんありますし、将来の作業には良いアプローチでしょう。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。
DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。
我々の手法はテキストエンコーダと互換性がある。
論文 参考訳(メタデータ) (2024-10-28T12:34:49Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis [14.467821652366574]
音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。
HANSENは、新しいAI生成された音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。
HANSENの実用性を評価・実証するため,人間工学データセット上でオーサシップ(AA)とオーサリティ検証(AV)を行い,最先端(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。
論文 参考訳(メタデータ) (2023-10-25T16:23:17Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。