論文の概要: SENTRA: Selected-Next-Token Transformer for LLM Text Detection
- arxiv url: http://arxiv.org/abs/2509.12385v1
- Date: Mon, 15 Sep 2025 19:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.735414
- Title: SENTRA: Selected-Next-Token Transformer for LLM Text Detection
- Title(参考訳): SENTRA: LLMテキスト検出用選択Next-Token変換器
- Authors: Mitchell Plyler, Yilun Zhang, Alexander Tuzhilin, Saoud Khalifah, Sen Tian,
- Abstract要約: 我々は,SENTRA(Selected-Next-Token tRAnsformer)という,新規で汎用的で教師付きLLMテキスト検出器を提案する。
SENTRAは、選択されたnext-token-probabilityシーケンスを活用するトランスフォーマーベースのエンコーダであり、大量の未ラベルデータに対するコントラスト事前トレーニングを利用する。
- 参考スコア(独自算出の注目度): 42.004354786317954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are becoming increasingly capable and widespread. Consequently, the potential and reality of their misuse is also growing. In this work, we address the problem of detecting LLM-generated text that is not explicitly declared as such. We present a novel, general-purpose, and supervised LLM text detector, SElected-Next-Token tRAnsformer (SENTRA). SENTRA is a Transformer-based encoder leveraging selected-next-token-probability sequences and utilizing contrastive pre-training on large amounts of unlabeled data. Our experiments on three popular public datasets across 24 domains of text demonstrate SENTRA is a general-purpose classifier that significantly outperforms popular baselines in the out-of-domain setting.
- Abstract(参考訳): LLMはますます有能で広まりつつある。
その結果、その誤用の可能性と現実も増大している。
本研究では,LLM生成テキストを明示的に宣言しない問題に対処する。
本稿では,SENTRA (Selected-Next-Token tRAnsformer) を新たに提案する。
SENTRAは、選択されたnext-token-probabilityシーケンスを活用するトランスフォーマーベースのエンコーダであり、大量の未ラベルデータに対するコントラスト事前トレーニングを利用する。
テキストの24領域にわたる3つの人気のある公開データセットに関する実験により、SENTRAは、ドメイン外設定において人気のあるベースラインを著しく上回る汎用分類器であることを示した。
関連論文リスト
- Real-time Verification and Refinement of Language Model Text Generation [60.04718679054704]
大規模言語モデル(LLM)は、幅広い自然言語タスクにおいて顕著な性能を示している。
重要な課題は、時に事実的に誤った答えを生じさせることである。
本稿では,LLM出力の検証と改善の効率化を目的とした新しい手法であるStreaming-VRを提案する。
論文 参考訳(メタデータ) (2025-01-14T03:59:48Z) - Robust Detection of LLM-Generated Text: A Comparative Analysis [0.276240219662896]
大規模言語モデルは生命の多くの側面に広く統合することができ、その出力は全てのネットワークリソースを迅速に満たすことができる。
生成したテキストの強力な検出器を開発することがますます重要になっている。
この検出器は、これらの技術の潜在的な誤用を防ぎ、ソーシャルメディアなどのエリアを負の効果から保護するために不可欠である。
論文 参考訳(メタデータ) (2024-11-09T18:27:15Z) - Which LLMs are Difficult to Detect? A Detailed Analysis of Potential Factors Contributing to Difficulties in LLM Text Detection [43.66875548677324]
我々は、不均衡なデータセットで分類器を訓練するためにLibAUCライブラリを使用してAIGテキスト分類器を訓練する。
We results in the Deepfake Text dataset shows that AIG-text detection are various across domain。
学生エッセイに焦点をあてたIvy Pandaデータセットでは, LLMのOpenAIファミリは, 分類者が人文と区別することが極めて困難であった。
論文 参考訳(メタデータ) (2024-10-18T21:42:37Z) - Learning to Rewrite: Generalized LLM-Generated Text Detection [19.9477991969521]
大規模言語モデル(LLM)は、非現実的コンテンツを生成し、大規模に偽情報を拡散する際に大きなリスクをもたらす。
本稿では、未知の領域に例外的な一般化を伴うAI生成テキストを検出するための新しいフレームワークであるLearning2Rewriteを紹介する。
論文 参考訳(メタデータ) (2024-08-08T05:53:39Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。