論文の概要: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts
- arxiv url: http://arxiv.org/abs/2402.14838v1
- Date: Mon, 19 Feb 2024 00:40:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:38:43.887837
- Title: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic
Features for Distinguishing AI-Generated and Human-Written Texts
- Title(参考訳): SemEval-2024 Task 8におけるRFBES:AI生成・人文テキストの識別のための構文的・意味的特徴の調査
- Authors: Mohammad Heydari Rad, Farhan Farsi, Shayan Bali, Romina Etezadi,
Mehrnoush Shamsfard
- Abstract要約: 本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。
マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
- 参考スコア(独自算出の注目度): 0.8437187555622164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, the usage of Large Language Models (LLMs) has increased, and LLMs
have been used to generate texts in different languages and for different
tasks. Additionally, due to the participation of remarkable companies such as
Google and OpenAI, LLMs are now more accessible, and people can easily use
them. However, an important issue is how we can detect AI-generated texts from
human-written ones. In this article, we have investigated the problem of
AI-generated text detection from two different aspects: semantics and syntax.
Finally, we presented an AI model that can distinguish AI-generated texts from
human-written ones with high accuracy on both multilingual and monolingual
tasks using the M4 dataset. According to our results, using a semantic approach
would be more helpful for detection. However, there is a lot of room for
improvement in the syntactic approach, and it would be a good approach for
future work.
- Abstract(参考訳): 現在では、大規模言語モデル(llm)の使用が増加し、llmは異なる言語と異なるタスクでテキストを生成するのに使われている。
加えて、GoogleやOpenAIといった注目すべき企業が参加しているため、LLMはよりアクセスしやすくなり、簡単に使用できるようになった。
しかし、重要な問題は、人間が書いたテキストからAIが生成したテキストを検出する方法である。
本稿では,aiが生成するテキスト検出の問題を,意味論と構文という2つの異なる側面から検討する。
最後に、M4データセットを用いて、多言語タスクと単言語タスクの両方で高精度にAI生成テキストと人書きテキストを区別できるAIモデルを提示した。
私たちの結果によると、セマンティックなアプローチを使うことは、検出にもっと役立つでしょう。
しかし、構文的アプローチには改善の余地がたくさんありますし、将来の作業には良いアプローチでしょう。
関連論文リスト
- Raidar: geneRative AI Detection viA Rewriting [46.403235978200776]
大規模な言語モデル(LLM)は、書き直しのタスクを行う場合、AI生成テキストよりも人間の書き起こしテキストを変更する傾向にある。
テキストの書き直しを LLM に促し,出力の編集距離を計算することで,AI 生成コンテンツを検出する手法を提案する。
この結果から,機械自体のレンズを通した機械生成テキストのユニークなインプリントが明らかになった。
論文 参考訳(メタデータ) (2024-01-23T18:57:53Z) - HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis [14.467821652366574]
音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。
HANSENは、新しいAI生成された音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。
HANSENの実用性を評価・実証するため,人間工学データセット上でオーサシップ(AA)とオーサリティ検証(AV)を行い,最先端(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。
論文 参考訳(メタデータ) (2023-10-25T16:23:17Z) - Towards Possibilities & Impossibilities of AI-generated Text Detection:
A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。
これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。
これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文 参考訳(メタデータ) (2023-10-23T18:11:32Z) - SeqXGPT: Sentence-Level AI-Generated Text Detection [62.3792779440284]
大規模言語モデル(LLM)を用いた文書の合成による文レベル検出の課題について紹介する。
次に,文レベルのAIGT検出機能として,ホワイトボックスLEMのログ確率リストを利用した textbfSequence textbfX (Check) textbfGPT を提案する。
論文 参考訳(メタデータ) (2023-10-13T07:18:53Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - The Imitation Game: Detecting Human and AI-Generated Texts in the Era of
ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。
テキストを分類するために、いくつかの機械学習モデルを使用します。
結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文 参考訳(メタデータ) (2023-07-22T21:00:14Z) - M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box
Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。
これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。
本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文 参考訳(メタデータ) (2023-05-24T08:55:11Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - Can AI-Generated Text be Reliably Detected? [54.670136179857344]
LLMの規制されていない使用は、盗作、偽ニュースの生成、スパムなど、悪意のある結果をもたらす可能性がある。
最近の研究は、生成されたテキスト出力に存在する特定のモデルシグネチャを使用するか、透かし技術を適用してこの問題に対処しようとしている。
本稿では,これらの検出器は実用シナリオにおいて信頼性が低いことを示す。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - Is This Abstract Generated by AI? A Research for the Gap between
AI-generated Scientific Text and Human-written Scientific Text [13.438933219811188]
本稿では,AIが生み出す科学内容と人間による文章とのギャップについて検討する。
我々は、AI生成科学テキストと人文科学テキストの間に、文章スタイルのギャップがあることを発見した。
論文 参考訳(メタデータ) (2023-01-24T04:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。