論文の概要: MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors
- arxiv url: http://arxiv.org/abs/2604.25152v1
- Date: Tue, 28 Apr 2026 02:55:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.682225
- Title: MGTEVAL: An Interactive Platform for Systemtic Evaluation of Machine-Generated Text Detectors
- Title(参考訳): MGTEVAL: 機械生成テキスト検出器のシステム評価のためのインタラクティブプラットフォーム
- Authors: Yuanfan Li, Qi Zhou, Chengzhengxu Li, Zhaohan Zhang, Chenxu Zhao, Zepu Ruan, Chao Shen, Xiaoming Liu,
- Abstract要約: MGTEVALは、Machine-Generated Text(MGT)検出器のシステム評価のためのプラットフォームである。
ワークフローは、データセット構築、データセットアタック、インテグレータトレーニング、パフォーマンス評価の4つのコンポーネントにまとめられている。
LLMでMGTを生成し、テストセットに12のテキストアタックを適用し、統一されたインターフェースで検出器をトレーニングし、有効性、堅牢性、効率を報告することによって、カスタムベンチマークの構築をサポートする。
- 参考スコア(独自算出の注目度): 27.446115628366915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MGTEVAL, an extensible platform for systematic evaluation of Machine-Generated Text (MGT) detectors. Despite rapid progress in MGT detection, existing evaluations are often fragmented across datasets, preprocessing, attacks, and metrics, making results hard to compare and reproduce. MGTEVAL organizes the workflow into four components: Dataset Building, Dataset Attack, Detector Training, and Performance Evaluation. It supports constructing custom benchmarks by generating MGT with configurable LLMs, applying 12 text attacks to test sets, training detectors via a unified interface, and reporting effectiveness, robustness, and efficiency. The platform provides both command-line and Web-based interfaces for user-friendly experimentation without code rewriting.
- Abstract(参考訳): MGTEVALは,Machine-Generated Text(MGT)検出器のシステム評価のための拡張可能なプラットフォームである。
MGT検出の急速な進歩にもかかわらず、既存の評価はデータセット、前処理、アタック、メトリクス間で断片化され、結果の比較と再現が困難になる。
MGTEVALはワークフローを、データセットビルディング、データセットアタック、インタクタトレーニング、パフォーマンス評価の4つのコンポーネントにまとめている。
MGTを設定可能なLLMで生成し、テストセットに12のテキストアタックを適用し、統一されたインターフェースで検出器をトレーニングし、有効性、堅牢性、効率を報告することで、カスタムベンチマークの構築をサポートする。
このプラットフォームは、コードを書き直すことなく、ユーザーフレンドリーな実験のためのコマンドラインとWebベースのインターフェイスを提供する。
関連論文リスト
- DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - On the Generalization and Adaptation Ability of Machine-Generated Text Detectors in Academic Writing [23.434925348283617]
本研究では,MGT検出器の一般化と適応性について,学術書誌に特有の3つの重要な側面で検討する。
ドメイン内設定とドメイン間設定の両方において、バイナリ分類および帰属タスクのための様々な検出器の性能をベンチマークする。
本研究は,MGT検出器の多種多様なシナリオにおける一般化と適応性に関する知見を提供し,ロバストで適応的な検出システム構築の基礎を築いた。
論文 参考訳(メタデータ) (2024-12-23T03:30:34Z) - Towards Realistic Evaluation of Commit Message Generation by Matching Online and Offline Settings [77.20838441870151]
オンラインメトリック - VCSに生成されたメッセージをコミットする前にユーザが導入する編集回数 - を使用して、オフライン実験用のメトリクスを選択します。
我々は,GPT-4が生成したコミットメッセージと,人間の専門家が編集したコミットメッセージからなる57対のデータセットを収集した。
以上の結果から,編集距離が最も高い相関性を示すのに対し,BLEUやMETEORなどの類似度は低い相関性を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-15T20:32:07Z) - OmniParser for Pure Vision Based GUI Agent [37.911094082816504]
複数のオペレーティングシステムの汎用エージェントとしてGPT-4Vのようなパワーマルチモーダルモデルは、堅牢なスクリーン解析技術が欠如しているため、大部分は過小評価されている。
textsc OmniはScreenSpotベンチマークでGPT-4Vのパフォーマンスを大幅に改善した。
textsc Omni スクリーンショットは GPT-4V ベースラインを上回り、スクリーンショット以外の追加情報を必要とする。
論文 参考訳(メタデータ) (2024-08-01T00:00:43Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。