論文の概要: VietBinoculars: A Zero-Shot Approach for Detecting Vietnamese LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2509.26189v1
- Date: Tue, 30 Sep 2025 12:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.135213
- Title: VietBinoculars: A Zero-Shot Approach for Detecting Vietnamese LLM-Generated Text
- Title(参考訳): VietBinoculars: ベトナムのLCM生成テキスト検出のためのゼロショットアプローチ
- Authors: Trieu Hai Nguyen, Sivaswamy Akilesh,
- Abstract要約: 本研究は、最適化された大域しきい値を持つ双眼鏡法の適応であるVietBinocularsを提案する。
我々はベトナムのAI生成データセットを構築し、VietBinocularsの最適しきい値を決定する。
その結果,VietBinocularsはF1スコアとAUCの2つの領域で99%以上を達成できた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development research of Large Language Models (LLMs) based on transformer architectures raises key challenges, one of them being the task of distinguishing between human-written text and LLM-generated text. As LLM-generated textual content, becomes increasingly complex over time, and resembles human writing, traditional detection methods are proving less effective, especially as the number and diversity of LLMs continue to grow with new models and versions being released at a rapid pace. This study proposes VietBinoculars, an adaptation of the Binoculars method with optimized global thresholds, to enhance the detection of Vietnamese LLM-generated text. We have constructed new Vietnamese AI-generated datasets to determine the optimal thresholds for VietBinoculars and to enable benchmarking. The results from our experiments show results show that VietBinoculars achieves over 99\% in all two domains of accuracy, F1-score, and AUC on multiple out-of-domain datasets. It outperforms the original Binoculars model, traditional detection methods, and other state-of-the-art approaches, including commercial tools such as ZeroGPT and DetectGPT, especially under specially modified prompting strategies.
- Abstract(参考訳): トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)の急速な開発研究は、人文テキストとLLM生成テキストを区別するタスクである重要な課題を提起する。
LLMが生成するテキストコンテンツは時間が経つにつれて複雑化し、人間の書き方と似ているため、従来の検出方法は、特にLLMの数と多様性が、新しいモデルやバージョンが急速にリリースされていくにつれて、効果が低下している。
本研究では,ベトナムのLLM生成テキストの検出を促進するために,Binoculars法を最適化されたグローバルしきい値に適応したVietBinocularsを提案する。
我々はベトナムのAI生成データセットを構築し、VietBinocularsの最適しきい値を決定し、ベンチマークを可能にする。
実験の結果,VietBinocularsは2つの領域の精度,F1スコア,AUCにおいて,複数の領域外データセットに対して99%以上を達成することがわかった。
これは、特に特別に修正されたプロンプト戦略の下で、オリジナルのBinocularsモデル、従来の検出方法、ZeroGPTやTecterGPTなどの商用ツールを含む最先端のアプローチよりも優れている。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - GigaCheck: Detecting LLM-generated Content [72.27323884094953]
本稿では,GigaCheckを提案することによって生成したテキスト検出の課題について検討する。
本研究は,LLM生成テキストとLLM生成テキストを区別する手法と,Human-Machine協調テキストにおけるLLM生成間隔を検出する手法について検討する。
具体的には,テキスト内のAI生成間隔をローカライズするために,コンピュータビジョンから適応したDETRのような検出モデルと組み合わせて,微調整の汎用LLMを用いる。
論文 参考訳(メタデータ) (2024-10-31T08:30:55Z) - Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - Training-free LLM-generated Text Detection by Mining Token Probability Sequences [18.955509967889782]
大規模言語モデル(LLM)は、様々な領域にまたがる高品質なテキストを生成する際、顕著な能力を示した。
統計的特徴を慎重に設計することで、固有の相違に焦点をあてたトレーニングフリーな手法は、一般化と解釈性の向上を提供する。
局所的および大域的統計を相乗化して検出を増強する,新しいトレーニング不要検出器である textbfLastde を導入する。
論文 参考訳(メタデータ) (2024-10-08T14:23:45Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z) - ReMoDetect: Reward Models Recognize Aligned LLM's Generations [55.06804460642062]
大型言語モデル (LLM) は人間の好むテキストを生成する。
本稿では,これらのモデルで共有される共通特性について述べる。
報奨モデルの検出能力をさらに向上する2つのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T17:38:33Z) - Vietnamese AI Generated Text Detection [0.0]
我々は、ベトナムのエッセイの6.800のサンプルと、人間によって書かれた3.400のサンプルと、AIによって生成された残りのサンプルからなるViDetectというデータセットを提示する。
ViT5, BartPho, PhoBERT, mDeberta V3, mBERTなどの最先端手法を用いて評価を行った。
この研究は、AIによるテキスト検出の今後の進歩の基礎を定め、自然言語処理分野の研究者に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-05-06T07:12:22Z) - DNA-GPT: Divergent N-Gram Analysis for Training-Free Detection of
GPT-Generated Text [82.5469544192645]
ダイバージェントN-Gram解析(DNA-GPT)と呼ばれる新しいトレーニング不要検出手法を提案する。
元の部分と新しい部分の違いをN-gram解析により解析することにより,機械生成テキストと人文テキストの分布に顕著な相違が明らかになった。
その結果, ゼロショットアプローチは, 人文とGPT生成テキストの区別において, 最先端の性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-05-27T03:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。