論文の概要: Benchmarking of LLM Detection: Comparing Two Competing Approaches
- arxiv url: http://arxiv.org/abs/2406.11670v1
- Date: Mon, 17 Jun 2024 15:51:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 14:03:05.465584
- Title: Benchmarking of LLM Detection: Comparing Two Competing Approaches
- Title(参考訳): LLM検出のベンチマーク:2つの競合手法の比較
- Authors: Thorsten Pröhl, Erik Putzier, Rüdiger Zarnekow,
- Abstract要約: 本稿では LLM テキスト認識の分野について概観する。
LLM生成テキスト認識のための異なるアプローチと実装された検出器について述べる。
実装の議論に加えて、その記事は検出器のベンチマークに焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article gives an overview of the field of LLM text recognition. Different approaches and implemented detectors for the recognition of LLM-generated text are presented. In addition to discussing the implementations, the article focuses on benchmarking the detectors. Although there are numerous software products for the recognition of LLM-generated text, with a focus on ChatGPT-like LLMs, the quality of the recognition (recognition rate) is not clear. Furthermore, while it can be seen that scientific contributions presenting their novel approaches strive for some kind of comparison with other approaches, the construction and independence of the evaluation dataset is often not comprehensible. As a result, discrepancies in the performance evaluation of LLM detectors are often visible due to the different benchmarking datasets. This article describes the creation of an evaluation dataset and uses this dataset to investigate the different detectors. The selected detectors are benchmarked against each other.
- Abstract(参考訳): 本稿では LLM テキスト認識の分野について概観する。
LLM生成テキスト認識のための異なるアプローチと実装された検出器について述べる。
実装の議論に加えて、その記事は検出器のベンチマークに焦点を当てている。
LLM生成テキストを認識するためのソフトウェア製品は数多く存在するが、ChatGPTライクなLCMに焦点を当てているため、認識の質(認識率)は明らかになっていない。
さらに, 新たなアプローチを提示する科学的貢献は, 他のアプローチと何らかの比較を試みているが, 評価データセットの構築と独立性は理解できないことが多い。
その結果、LLM検出器の性能評価の相違は、異なるベンチマークデータセットのためにしばしば見られる。
本稿では、評価データセットの作成について述べ、このデータセットを用いて異なる検出器を調査する。
選択された検出器は互いにベンチマークされる。
関連論文リスト
- Evading AI-Generated Content Detectors using Homoglyphs [0.0]
既存のLCM検出器を回避できるホモグリフベースの攻撃を提示する。
最先端LCM検出器におけるホモグリフの有効性を評価するため, 総合評価を行った。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Large Language Models Memorize Sensor Datasets! Implications on Human Activity Recognition Research [0.23982628363233693]
本研究では,Large Language Models (LLMs) が,訓練中にHAR(Human Activity Recognition)データセットにアクセス可能かどうかを検討する。
ほとんどの現代のLLMは、事実上(アクセス可能な)インターネット上でトレーニングされています。
特にダフネットデータセットでは、GPT-4はセンサー読み取りのブロックを再現することができる。
論文 参考訳(メタデータ) (2024-06-09T19:38:27Z) - LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
単純だが効果的なブラックボックスゼロショット検出手法を提案する。
人文テキストは典型的には LLM 生成テキストよりも文法上の誤りを多く含んでいる。
提案手法は平均98.7%のAUROCを達成し,パラフレーズや逆行性摂動攻撃に対する強い堅牢性を示した。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Similar Data Points Identification with LLM: A Human-in-the-loop Strategy Using Summarization and Hidden State Insights [0.29260385019352086]
本研究では,非自由テキスト領域にまたがる類似データ点を簡易かつ効果的に同定する手法を提案する。
我々の2段階のアプローチは、データポイントの要約と隠れ状態抽出である。
複数のデータセット上で類似したデータポイントを同定する上で,本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-04-03T03:17:28Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z) - LLM-Detector: Improving AI-Generated Chinese Text Detection with
Open-Source LLM Instruction Tuning [4.328134379418151]
既存のAI生成テキスト検出モデルでは、ドメイン内のオーバーフィットが難しくなる。
LLM-Detectorは文書レベルと文レベルのテキスト検出のための新しい手法である。
論文 参考訳(メタデータ) (2024-02-02T05:54:12Z) - Spotting LLMs With Binoculars: Zero-Shot Detection of Machine-Generated Text [98.28130949052313]
密接に関連する2つの言語モデルとの対比に基づくスコアは、人文と機械文の分離に極めて正確である。
本稿では,一対の事前学習 LLM を用いた簡単な計算しか必要としない新しい LLM 検出器を提案する。
Binocularsと呼ばれるこの方法は、トレーニングデータなしで最先端の精度を実現する。
論文 参考訳(メタデータ) (2024-01-22T16:09:47Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。