論文の概要: Classification of Human- and AI-Generated Texts for English, French,
German, and Spanish
- arxiv url: http://arxiv.org/abs/2312.04882v1
- Date: Fri, 8 Dec 2023 07:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:46:36.539476
- Title: Classification of Human- and AI-Generated Texts for English, French,
German, and Spanish
- Title(参考訳): 英語・フランス語・ドイツ語・スペイン語における人文・AI文の分類
- Authors: Kristina Schaaff, Tim Schlippe, Lorenz Mindner
- Abstract要約: 我々は、英語、フランス語、ドイツ語、スペイン語の人文およびAI生成テキストを分類する機能を分析する。
AI生成テキストの検出には,提案するすべての機能の組み合わせが最適である。
AIで表現されたテキストを検出するために、全ての特徴を持つシステムは、多くの場合、他の特徴を持つシステムよりも優れています。
- 参考スコア(独自算出の注目度): 0.138120109831448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we analyze features to classify human- and AI-generated text
for English, French, German and Spanish and compare them across languages. We
investigate two scenarios: (1) The detection of text generated by AI from
scratch, and (2) the detection of text rephrased by AI. For training and
testing the classifiers in this multilingual setting, we created a new text
corpus covering 10 topics for each language. For the detection of AI-generated
text, the combination of all proposed features performs best, indicating that
our features are portable to other related languages: The F1-scores are close
with 99% for Spanish, 98% for English, 97% for German and 95% for French. For
the detection of AI-rephrased text, the systems with all features outperform
systems with other features in many cases, but using only document features
performs best for German (72%) and Spanish (86%) and only text vector features
leads to best results for English (78%).
- Abstract(参考訳): 本稿では、英語、フランス語、ドイツ語、スペイン語の人文およびAI生成テキストを分類し、言語間の比較を行う。
我々は,(1)AIが生成したテキストのスクラッチからの検出,(2)AIが書き起こしたテキストの検出の2つのシナリオについて検討する。
この多言語環境での分類器の訓練とテストのために、各言語について10のトピックをカバーする新しいテキストコーパスを作成しました。
AI生成テキストの検出では、提案されたすべての機能の組み合わせがベストであり、私たちの機能が他の関連言語に移植可能であることを示している。
aiリフレッシュされたテキストの検出には、多くのケースで、すべての機能が他の機能を持つシステムよりも優れているが、ドキュメント機能のみを使用すると、ドイツ語(72%)とスペイン語(86%)でパフォーマンスが向上し、テキストベクトル機能のみが英語で最高の結果をもたらす(78%)。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - MULTITuDE: Large-Scale Multilingual Machine-Generated Text Detection
Benchmark [10.92793962395538]
MultiTuDEは、多言語マシン生成テキスト検出のための新しいベンチマークデータセットである。
11の言語で74,081の認証テキストと機械生成テキストで構成されている。
ゼロショット(統計とブラックボックス)と微調整検出器の性能を比較した。
論文 参考訳(メタデータ) (2023-10-20T15:57:17Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z) - Classification of Human- and AI-Generated Texts: Investigating Features
for ChatGPT [0.25782420501870296]
我々は、AIが生成したテキストをスクラッチから検出し、AIが表現したテキストをリフレッシュするための、伝統的で新しい機能を探る。
実験のために,10の学校トピックを対象とした新しいテキストコーパスを作成した。
基本的・先進的な人文・AI表現テキストを分類するための最良のシステムは、F1スコアが78%以上である。
論文 参考訳(メタデータ) (2023-08-10T05:09:42Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - MultiSpider: Towards Benchmarking Multilingual Text-to-SQL Semantic
Parsing [48.216386761482525]
英語、ドイツ語、フランス語、スペイン語、日本語、中国語、ベトナム語)をカバーする最大多言語テキストスキーマデータセットであるMultiSpiderを提案する。
3つの典型的な設定(ゼロショット、モノリンガル、マルチリンガル)の下での実験結果から、非英語言語では6.1%の精度の低下が見られる。
また、単純なフレームワーク拡張フレームワークであるSAVe(Augmentation-with-Verification)を提案する。これは、全体的なパフォーマンスを約1.8%向上させ、言語間の29.5%のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2022-12-27T13:58:30Z) - RuArg-2022: Argument Mining Evaluation [69.87149207721035]
本稿は、ロシア語テキストを扱う議論分析システムの最初のコンペティションの主催者の報告である。
新型コロナウイルスの感染拡大に伴う3つの話題について、9,550文(ソーシャルメディア投稿記事)のコーパスを用意した。
両タスクで第一位を獲得したシステムは、BERTアーキテクチャのNLI(Natural Language Inference)変種を使用した。
論文 参考訳(メタデータ) (2022-06-18T17:13:37Z) - MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language
for Readability Assessment [0.0]
MultiAzterTestは、125以上の凝集度、言語、可読性のテキストを分析する、オープンソースのNLPツールである。
MultiAzterTestは、言語横断的な機能を使用して、より複雑なものと単純なものとの競争結果も得る。
論文 参考訳(メタデータ) (2021-09-10T13:34:52Z) - Feature Selection on Noisy Twitter Short Text Messages for Language
Identification [0.0]
アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
論文 参考訳(メタデータ) (2020-07-11T09:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。