論文の概要: Detecting AI-Generated Texts in Cross-Domains
- arxiv url: http://arxiv.org/abs/2410.13966v1
- Date: Thu, 17 Oct 2024 18:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:09.465839
- Title: Detecting AI-Generated Texts in Cross-Domains
- Title(参考訳): クロスドメインにおけるAI生成テキストの検出
- Authors: You Zhou, Jie Wang,
- Abstract要約: ベースラインモデルとして,RoBERTa-Rankerというランキング分類器を訓練する。
次に、新しいドメインで少量のラベル付きデータしか必要としないRoBERTa-Rankerを微調整する手法を提案する。
実験により、この微調整されたドメイン認識モデルは、一般的なTectGPTとGPTZeroより優れていることが示された。
- 参考スコア(独自算出の注目度): 3.2245324254437846
- License:
- Abstract: Existing tools to detect text generated by a large language model (LLM) have met with certain success, but their performance can drop when dealing with texts in new domains. To tackle this issue, we train a ranking classifier called RoBERTa-Ranker, a modified version of RoBERTa, as a baseline model using a dataset we constructed that includes a wider variety of texts written by humans and generated by various LLMs. We then present a method to fine-tune RoBERTa-Ranker that requires only a small amount of labeled data in a new domain. Experiments show that this fine-tuned domain-aware model outperforms the popular DetectGPT and GPTZero on both in-domain and cross-domain texts, where AI-generated texts may either be in a different domain or generated by a different LLM not used to generate the training datasets. This approach makes it feasible and economical to build a single system to detect AI-generated texts across various domains.
- Abstract(参考訳): 大規模言語モデル(LLM)によって生成されたテキストを検出する既存のツールが一定の成功を収めているが、新しいドメインのテキストを扱う場合のパフォーマンスは低下する可能性がある。
この問題に対処するため、我々はRoBERTaの修正版であるRoBERTa-Rankerというランキング分類器を、人間によって書かれ、様々なLLMによって生成される幅広いテキストを含むデータセットを用いてベースラインモデルとして訓練する。
次に、新しいドメインで少量のラベル付きデータしか必要としないRoBERTa-Rankerを微調整する手法を提案する。
実験により、この微調整されたドメイン認識モデルは、AI生成されたテキストが異なるドメイン内にあるか、トレーニングデータセットを生成するのに使用されていない異なるLLMによって生成される場合、ドメイン内およびクロスドメインのテキストの両方で、一般的なDeuterGPTとGPTZeroよりも優れていることが示された。
このアプローチにより、さまざまなドメインにわたるAI生成テキストを検出する単一のシステムを構築することが可能で経済的である。
関連論文リスト
- GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には、コンピュータビジョンに適応したDETRのような検出モデルと組み合わせて、微調整の汎用LLMを用いて、テキスト内で人工的に生成された間隔をローカライズする。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Robust AI-Generated Text Detection by Restricted Embeddings [6.745955674138081]
我々は、AI生成したテキストの検出器の堅牢性、すなわち、目に見えないジェネレータやセマンティックドメインに転送する能力に焦点を当てる。
有害な線形部分空間の除去は、ドメイン固有のスプリアス機能を無視したロバストな分類器の訓練に役立つことを示す。
頭部および座標に基づく部分空間除去のための最良のアプローチは、平均分布分布(OOD)分類スコアを9%、特に14%向上させる。
論文 参考訳(メタデータ) (2024-10-10T16:58:42Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - EAGLE: A Domain Generalization Framework for AI-generated Text Detection [15.254775341371364]
本稿では,未知のターゲットジェネレータからAI生成テキストを検出するための領域一般化フレームワークを提案する。
我々は,未知のターゲットジェネレータが生成したテキストの検出において,我々のフレームワークがいかに効果的に優れた性能を実現するかを実証する。
論文 参考訳(メタデータ) (2024-03-23T02:44:20Z) - A Simple yet Efficient Ensemble Approach for AI-generated Text Detection [0.5840089113969194]
大規模言語モデル(LLM)は、人間の文章によく似たテキストを生成する際、顕著な能力を示した。
人工的に生成されたテキストと人間が作成したテキストを区別できる自動化アプローチを構築することが不可欠である。
本稿では,複数の構成 LLM からの予測をまとめて,シンプルで効率的な解を提案する。
論文 参考訳(メタデータ) (2023-11-06T13:11:02Z) - Corpus Synthesis for Zero-shot ASR domain Adaptation using Large
Language Models [19.726699481313194]
そこで本稿では,新たなターゲットドメインにASRモデルを適用するための新たな戦略を提案する。
SLURPデータセットを用いた実験により,提案手法は未知のターゲットドメインに対して平均相対単語誤り率を28%向上させることができた。
論文 参考訳(メタデータ) (2023-09-18T15:43:08Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Bidirectional Generative Framework for Cross-domain Aspect-based
Sentiment Analysis [68.742820522137]
クロスドメインアスペクトベースの感情分析(ABSA)は、ソースドメインから知識を伝達することで、ターゲットドメイン上で様々なきめ細かい感情分析タスクを実行することを目的としている。
本稿では,多様なドメイン間ABSAタスクに対処するための統合双方向生成フレームワークを提案する。
我々のフレームワークは、テキストからラベルまでの方向とラベルからテキストへの方向の両方で生成モデルを訓練する。
論文 参考訳(メタデータ) (2023-05-16T15:02:23Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。