Fugu-MT 論文翻訳(概要): Robust and Fine-Grained Detection of AI Generated Texts

論文の概要: Robust and Fine-Grained Detection of AI Generated Texts

arxiv url: http://arxiv.org/abs/2504.11952v1
Date: Wed, 16 Apr 2025 10:29:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-24 20:34:01.796535
Title: Robust and Fine-Grained Detection of AI Generated Texts
Title（参考訳）: AI生成テキストのロバストかつ微細な検出
Authors: Ram Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq,
Abstract要約: 既存のシステムは、短いテキストよりもAI生成したコンテンツを正確に識別するのに苦労することが多い。本稿では,トークン分類のタスクのために構築されたモデルについて紹介する。また,23言語以上のプロプライエタリなLLMが主に共著する2.4M以上のテキストのデータセットも導入した。
参考スコア（独自算出の注目度）: 0.29569362468768806
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: An ideal detection system for machine generated content is supposed to work well on any generator as many more advanced LLMs come into existence day by day. Existing systems often struggle with accurately identifying AI-generated content over shorter texts. Further, not all texts might be entirely authored by a human or LLM, hence we focused more over partial cases i.e human-LLM co-authored texts. Our paper introduces a set of models built for the task of token classification which are trained on an extensive collection of human-machine co-authored texts, which performed well over texts of unseen domains, unseen generators, texts by non-native speakers and those with adversarial inputs. We also introduce a new dataset of over 2.4M such texts mostly co-authored by several popular proprietary LLMs over 23 languages. We also present findings of our models' performance over each texts of each domain and generator. Additional findings include comparison of performance against each adversarial method, length of input texts and characteristics of generated texts compared to the original human authored texts.
Abstract（参考訳）: 機械生成コンテンツに対する理想的な検出システムは、より高度なLCMが日々存在するように、どのジェネレータでもうまく機能するはずである。既存のシステムは、短いテキストよりもAI生成したコンテンツを正確に識別するのに苦労することが多い。さらに、すべてのテキストが人間またはLLMによって完全に作成されるわけではないので、我々は部分的なケース、すなわち人間-LLM共著のテキストに焦点を当てた。本論文では,非母国語話者によるテキスト,非母国語話者によるテキスト,および敵国語入力のテキストのテキストに対して,人間の機械による共用テキストの広範な収集に基づいて訓練されたトークン分類タスクのために構築されたモデルについて紹介する。また,23言語以上のプロプライエタリなLLMが主に共著する2.4M以上のテキストのデータセットも導入した。また,各ドメインおよびジェネレータの各テキストに対して,モデルの性能を示す。追加的な知見として、各対向法の性能比較、入力テキストの長さ、生成したテキストの特徴と、オリジナルの人間によるテキストとの比較がある。

関連論文リスト

On the Effectiveness of LLM-Specific Fine-Tuning for Detecting AI-Generated Text [1.8428580623654867]
本稿では,大規模コーパスと新たな学習戦略に基づくAIによるテキスト検出手法を提案する。我々は,複数のジャンルにまたがる1ビリオン・トーケン・コーパスと,AI生成テキストの1.9ビリオン・トーケン・コーパスを紹介する。我々の最高の微調整検出器は99.6%のトークンレベルの精度を達成し、既存のオープンソースベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-01-27T19:22:38Z)
Linguistic and Embedding-Based Profiling of Texts generated by Humans and Large Language Models [0.2522193309965572]
人書きテキストや機械生成テキストを特徴付けるために,依存長や感情といった言語的特徴を計算した。統計的分析により,人文テキストはより単純な構文構造とより多様な意味的内容を示す傾向があることが明らかとなった。人文テキストと機械文テキストの両方がドメイン間のスタイリスティックな多様性を示しており、人文テキストは我々の特徴のより大きなバリエーションを示している。
論文参考訳（メタデータ） (2025-07-18T02:46:55Z)
GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文参考訳（メタデータ） (2024-10-31T08:30:55Z)
RKadiyala at SemEval-2024 Task 8: Black-Box Word-Level Text Boundary Detection in Partially Machine Generated Texts [0.0]
本稿では,与えられたテキストのどの部分が単語レベルで生成されたかを特定するための信頼性の高いアプローチをいくつか紹介する。本稿では,プロプライエタリシステムとの比較,未確認領域におけるモデルの性能,ジェネレータのテキストの比較を行う。その結果,検出能の他の側面との比較とともに,検出精度が著しく向上した。
論文参考訳（メタデータ） (2024-10-22T03:21:59Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文参考訳（メタデータ） (2024-06-13T12:43:40Z)
Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。 PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文参考訳（メタデータ） (2024-05-21T11:22:27Z)
Deciphering Textual Authenticity: A Generalized Strategy through the Lens of Large Language Semantics for Detecting Human vs. Machine-Generated Text [8.290557547578146]
プリトレーニング済みのT5エンコーダとLLM埋め込みサブクラスタリングを組み合わせた,機械生成テキスト検出システムT5LLMCipherを導入する。提案手法は,機械生成テキストの平均F1スコアが19.6%増加し,非可視ジェネレータやドメインでF1スコアが平均上昇する,最先端の一般化能力を提供する。
論文参考訳（メタデータ） (2024-01-17T18:45:13Z)
The Imitation Game: Detecting Human and AI-Generated Texts in the Era of ChatGPT and BARD [3.2228025627337864]
異なるジャンルの人文・AI生成テキストのデータセットを新たに導入する。テキストを分類するために、いくつかの機械学習モデルを使用します。結果は、人間とAIが生成したテキストを識別する上で、これらのモデルの有効性を示す。
論文参考訳（メタデータ） (2023-07-22T21:00:14Z)
MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文参考訳（メタデータ） (2023-05-22T17:13:29Z)
On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。 GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文参考訳（メタデータ） (2023-04-10T17:47:39Z)
Composable Text Controls in Latent Space with ODEs [97.12426987887021]
本稿では,コンパクトテキスト空間における構成可能なテキスト操作のための,新しい効率的なアプローチを提案する。事前学習したLMを効率よく適応することで、サンプルベクトルを所望のテキストシーケンスにデコードする。実験により、我々のアプローチ内でこれらの演算子を構成すると、高品質なテキストの生成や編集が可能であることが示された。
論文参考訳（メタデータ） (2022-08-01T06:51:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。