Fugu-MT 論文翻訳(概要): RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts

論文の概要: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts

arxiv url: http://arxiv.org/abs/2402.14838v1
Date: Mon, 19 Feb 2024 00:40:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:38:43.887837
Title: RFBES at SemEval-2024 Task 8: Investigating Syntactic and Semantic Features for Distinguishing AI-Generated and Human-Written Texts
Title（参考訳）: SemEval-2024 Task 8におけるRFBES:AI生成・人文テキストの識別のための構文的・意味的特徴の調査
Authors: Mohammad Heydari Rad, Farhan Farsi, Shayan Bali, Romina Etezadi, Mehrnoush Shamsfard
Abstract要約: 本稿では、意味論と構文という2つの異なる側面からAIが生成するテキスト検出の問題について考察する。マルチリンガルタスクとモノリンガルタスクの両方において,AI生成テキストと人書きテキストを高い精度で区別できるAIモデルを提案する。
参考スコア（独自算出の注目度）: 0.8437187555622164
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Nowadays, the usage of Large Language Models (LLMs) has increased, and LLMs have been used to generate texts in different languages and for different tasks. Additionally, due to the participation of remarkable companies such as Google and OpenAI, LLMs are now more accessible, and people can easily use them. However, an important issue is how we can detect AI-generated texts from human-written ones. In this article, we have investigated the problem of AI-generated text detection from two different aspects: semantics and syntax. Finally, we presented an AI model that can distinguish AI-generated texts from human-written ones with high accuracy on both multilingual and monolingual tasks using the M4 dataset. According to our results, using a semantic approach would be more helpful for detection. However, there is a lot of room for improvement in the syntactic approach, and it would be a good approach for future work.
Abstract（参考訳）: 現在では、大規模言語モデル(llm)の使用が増加し、llmは異なる言語と異なるタスクでテキストを生成するのに使われている。加えて、GoogleやOpenAIといった注目すべき企業が参加しているため、LLMはよりアクセスしやすくなり、簡単に使用できるようになった。しかし、重要な問題は、人間が書いたテキストからAIが生成したテキストを検出する方法である。本稿では,aiが生成するテキスト検出の問題を,意味論と構文という2つの異なる側面から検討する。最後に、M4データセットを用いて、多言語タスクと単言語タスクの両方で高精度にAI生成テキストと人書きテキストを区別できるAIモデルを提示した。私たちの結果によると、セマンティックなアプローチを使うことは、検出にもっと役立つでしょう。しかし、構文的アプローチには改善の余地がたくさんありますし、将来の作業には良いアプローチでしょう。

関連論文リスト

A Comprehensive Dataset for Human vs. AI Generated Text Detection [23.0218614564443]
ニューヨーク・タイムズ紙の記事から58,000件以上のテキストサンプルからなる包括的データセットを提案する。このデータセットは、オリジナルの記事をプロンプトとして抽象化し、完全な人間による物語を提供する。 AI生成テキストと人書きテキストを区別し、AIテキストを8.92%の精度で生成モデルに関連付けるという2つの重要なタスクのベースライン結果を確立します。
論文参考訳（メタデータ） (2025-10-26T23:50:52Z)
LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text [39.58172554437255]
LLMTraceは、AIによるテキスト検出のための、大規模なバイリンガル(英語とロシア語)コーパスである。私たちのデータセットは、従来のフルテキストバイナリ分類(人間対AI)と、AI生成間隔検出の新しいタスクの2つの重要なタスクをサポートするように設計されています。 LLMTraceは、よりニュアンスで実用的なAI検出モデルの次世代をトレーニングし、評価するための重要なリソースになると考えています。
論文参考訳（メタデータ） (2025-09-25T14:59:43Z)
mdok of KInIT: Robustly Fine-tuned LLM for Binary and Multiclass AI-Generated Text Detection [0.0]
自動検出は、人間が機械生成したテキストを表示するのを助けることができる。このノートは、テキスト分類のための微調整された小さなLLMに基づいて、ロバスト検出における我々のmdokアプローチを記述している。これは、Voight-Kampff Generative AI Detection 2025の両方のサブタスクに適用される。
論文参考訳（メタデータ） (2025-06-02T14:07:32Z)
AI-generated Text Detection: A Multifaceted Approach to Binary and Multiclass Classification [0.13392361199400257]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。このような機能は、偽ニュース生成、スパムメールの作成、学術的課題における誤用など、潜在的な誤用につながる。最適化されたモデルとより単純なバリエーションの2つのニューラルアーキテクチャを提案する。タスクAでは、最適化されたニューラルアーキテクチャが0.994ドルのF1$スコアで5位、タスクBでは、単純なニューラルアーキテクチャが0.627のF1$スコアで5位にランクインした。
論文参考訳（メタデータ） (2025-05-15T09:28:06Z)
Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文参考訳（メタデータ） (2025-04-05T20:51:54Z)
Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing [55.2480439325792]
誤分類は、偽の盗作行為の告発や、オンラインコンテンツにおけるAIの普及に関する誤解を招く可能性がある。我々は、AI-Polished-Text Evaluationデータセットを用いて、最先端の11のAIテキスト検出を体系的に評価した。我々の発見によると、検出器は、最小限に磨き上げられたテキストをAI生成と誤分類し、AIの関与度を区別し、古いモデルと小さなモデルに偏見を示す。
論文参考訳（メタデータ） (2025-02-21T18:45:37Z)
Leveraging Explainable AI for LLM Text Attribution: Differentiating Human-Written and Multiple LLMs-Generated Text [1.1137087573421256]
本研究では,生成型AI大言語モデルを用いて生成されたテキストコンテンツの検出と識別を支援することを目的とする。我々はランダムフォレスト(RF)やリカレントニューラルネットワーク(RNN)などの機械学習アルゴリズムを利用して、属性の重要な特徴を理解する。本手法は,1) 人文とAIテキストを区別するバイナリ分類と,2) 人文と5種類のLDMツールで生成するテキストを区別するマルチ分類に分けられる。
論文参考訳（メタデータ） (2025-01-06T18:46:53Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
DeTeCtive: Detecting AI-generated Text via Multi-Level Contrastive Learning [24.99797253885887]
このタスクを達成するための鍵は、異なる著者のスタイルを区別することにある、と我々は主張する。 DeTeCtiveは,マルチタスクの補助的,マルチレベルのコントラスト学習フレームワークである。我々の手法はテキストエンコーダと互換性がある。
論文参考訳（メタデータ） (2024-10-28T12:34:49Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
HANSEN: Human and AI Spoken Text Benchmark for Authorship Analysis [14.467821652366574]
音声テキストの最大のベンチマークであるHANSEN(Human ANd ai Spoken tExt beNchmark)を紹介する。 HANSENは、新しいAI生成された音声テキストデータセットの作成とともに、書き起こしを伴う既存の音声データセットの厳密なキュレーションを含んでいる。 HANSENの実用性を評価・実証するため,人間工学データセット上でオーサシップ(AA)とオーサリティ検証(AV)を行い,最先端(SOTA)モデルを用いた人間対AI音声テキスト検出を行った。
論文参考訳（メタデータ） (2023-10-25T16:23:17Z)
Towards Possibilities & Impossibilities of AI-generated Text Detection: A Survey [97.33926242130732]
大規模言語モデル(LLM)は、自然言語処理(NLP)の領域に革命をもたらし、人間のようなテキスト応答を生成する能力を持つ。これらの進歩にもかかわらず、既存の文献のいくつかは、LLMの潜在的な誤用について深刻な懸念を提起している。これらの懸念に対処するために、研究コミュニティのコンセンサスは、AI生成テキストを検出するアルゴリズムソリューションを開発することである。
論文参考訳（メタデータ） (2023-10-23T18:11:32Z)
Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。 AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文参考訳（メタデータ） (2023-09-14T14:41:46Z)
The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。テキストを分類するために、いくつかの機械学習モデルを使用します。結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文参考訳（メタデータ） (2023-07-22T21:00:14Z)
M4: Multi-generator, Multi-domain, and Multi-lingual Black-Box Machine-Generated Text Detection [69.29017069438228]
大規模言語モデル(LLM)は,多様なユーザクエリに対して,流動的な応答を生成する優れた能力を示している。これはまた、ジャーナリズム、教育、アカデミアにおけるそのようなテキストの誤用の可能性への懸念も提起している。本研究では,機械が生成したテキストを検知し,潜在的誤用を特定できる自動システムの構築を試みている。
論文参考訳（メタデータ） (2023-05-24T08:55:11Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。