論文の概要: AIDetx: a compression-based method for identification of machine-learning generated text
- arxiv url: http://arxiv.org/abs/2411.19869v1
- Date: Fri, 29 Nov 2024 17:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:22:17.807759
- Title: AIDetx: a compression-based method for identification of machine-learning generated text
- Title(参考訳): AIDetx: 機械学習生成テキストの圧縮に基づく識別法
- Authors: Leonardo Almeida, Pedro Rodrigues, Diogo Magalhães, Armando J. Pinho, Diogo Pratas,
- Abstract要約: 本稿では,データ圧縮技術を用いた機械生成テキストの検出手法であるAIDetxを紹介する。
AIDetxを2つのベンチマークデータセットで評価し,F1スコアはそれぞれ97%,99%であった。
大規模言語モデル(LLM)のような現在の手法と比較して、AIDetxはより解釈可能で計算的に効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.8411424745913135
- License:
- Abstract: This paper introduces AIDetx, a novel method for detecting machine-generated text using data compression techniques. Traditional approaches, such as deep learning classifiers, often suffer from high computational costs and limited interpretability. To address these limitations, we propose a compression-based classification framework that leverages finite-context models (FCMs). AIDetx constructs distinct compression models for human-written and AI-generated text, classifying new inputs based on which model achieves a higher compression ratio. We evaluated AIDetx on two benchmark datasets, achieving F1 scores exceeding 97% and 99%, respectively, highlighting its high accuracy. Compared to current methods, such as large language models (LLMs), AIDetx offers a more interpretable and computationally efficient solution, significantly reducing both training time and hardware requirements (e.g., no GPUs needed). The full implementation is publicly available at https://github.com/AIDetx/AIDetx.
- Abstract(参考訳): 本稿では,データ圧縮技術を用いた機械生成テキストの検出手法であるAIDetxを紹介する。
ディープラーニング分類器のような伝統的な手法は、しばしば高い計算コストと限定的な解釈可能性に悩まされる。
これらの制約に対処するために,有限コンテキストモデル(FCM)を利用した圧縮ベース分類フレームワークを提案する。
AIDetxは、人書きテキストとAI生成テキストの異なる圧縮モデルを構築し、どのモデルがより高い圧縮比を達成するかに基づいて、新しい入力を分類する。
AIDetxを2つのベンチマークデータセットで評価し,F1スコアはそれぞれ97%,99%を超え,高い精度で評価した。
大規模言語モデル(LLM)のような現在の手法と比較して、AIDetxはより解釈可能で計算効率の良いソリューションを提供し、トレーニング時間とハードウェア要件の両方を著しく削減する(GPUを必要としない)。
完全な実装はhttps://github.com/AIDetx/AIDetxで公開されている。
関連論文リスト
- Low-Resource Fast Text Classification Based on Intra-Class and Inter-Class Distance Calculation [1.0291559330120414]
LFTCと呼ばれる低リソースかつ高速なテキスト分類モデルを提案する。
当社のアプローチは,各クラスに対して,クラス内データ内の正規性情報を完全にマイニングするコンプレッサーリストを構築することから始まります。
LFTCを9つの公開ベンチマークデータセットで評価した結果,性能と処理時間に大きな改善が見られた。
論文 参考訳(メタデータ) (2024-12-13T07:22:13Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - Embedded Named Entity Recognition using Probing Classifiers [10.573861741540853]
EMBERはデコーダのみの言語モデルで名前付きエンティティ認識を微調整することなくストリーミングできる。
EMBERは高いトークン生成率を維持しており, 約1%の速度低下しか認められていない。
トレーニング、テスト、効率的なトークン分類モデルをデプロイするためのツールキットを含む、コードとデータをオンラインで公開しています。
論文 参考訳(メタデータ) (2024-03-18T12:58:16Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Are We Really Making Much Progress in Text Classification? A Comparative Review [5.33235750734179]
我々は、よく知られたデータセットにまたがって、シングルラベルとマルチラベルのテキスト分類のための様々な手法を解析する。
我々は、教師付きタスクの生成モデルよりも、BERTのような差別的言語モデルの方が優れていることを強調する。
論文 参考訳(メタデータ) (2022-04-08T09:28:20Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。