論文の概要: Spotlights and Blindspots: Evaluation Machine-Generated Text Detection
- arxiv url: http://arxiv.org/abs/2604.16607v1
- Date: Fri, 17 Apr 2026 18:01:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.101766
- Title: Spotlights and Blindspots: Evaluation Machine-Generated Text Detection
- Title(参考訳): SpotlightsとBlindspots: 評価機械によるテキスト検出
- Authors: Kevin Stowe, Kailash Patil,
- Abstract要約: 6つの異なるシステムから15の異なる検出モデルと7つのトレーニングされたモデルを評価し、7つの英語のテキストテストセットと3つの創造的人文データセットを比較した。
すべての領域で1つのシステムが優れているわけではなく、ほぼすべてが特定のタスクに有効であることがわかった。
データセットとメトリクスに基づいて,モデルランクのばらつきが高く,リスクの高いドメインにおける新たな人文テキストに対する全体的なパフォーマンスが低かった。
- 参考スコア(独自算出の注目度): 2.3136901091787805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the rise of generative language models, machine-generated text detection has become a critical challenge. A wide variety of models is available, but inconsistent datasets, evaluation metrics, and assessment strategies obscure comparisons of model effectiveness. To address this, we evaluate 15 different detection models from six distinct systems, as well as seven trained models, across seven English-language textual test sets and three creative human-written datasets. We provide an empirical analysis of model performance, the influence of training and evaluation data, and the impact of key metrics. We find that no single system excels in all areas and nearly all are effective for certain tasks, and the representation of model performance is critically linked to dataset and metric choices. We find high variance in model ranks based on datasets and metrics, and overall poor performance on novel human-written texts in high-risk domains. Across datasets and metrics, we find that methodological choices that are often assumed or overlooked are essential for clearly and accurately reflecting model performance.
- Abstract(参考訳): 生成言語モデルの台頭により、機械によるテキスト検出が重要な課題となっている。
様々なモデルが利用可能であるが、一貫性のないデータセット、評価指標、評価戦略はモデルの有効性の比較を曖昧にしている。
これを解決するために,6つの異なるシステムから15の異なる検出モデルと7つの英語のテキストテストセットと3つの創造的人文データセットを用いて7つの訓練されたモデルを評価した。
モデルの性能、トレーニングと評価データの影響、および重要な指標の影響を実証的に分析する。
モデル性能の表現は、データセットやメトリックの選択と強く結びついていることが分かりました。
データセットとメトリクスに基づいて,モデルランクのばらつきが高く,リスクの高いドメインにおける新たな人文テキストに対する全体的なパフォーマンスが低かった。
データセットやメトリクス全体にわたって、しばしば想定される、あるいは見過ごされる方法論的選択が、モデルパフォーマンスを明確かつ正確に反映するために不可欠であることが分かりました。
関連論文リスト
- An Empirical Comparison of Text Summarization: A Multi-Dimensional Evaluation of Large Language Models [2.1945750784330067]
本研究は17大言語モデル(OpenAI, Google, Anthropic, オープンソース)の要約性能を評価する。
事実整合性、意味的類似性、語彙重なり、人間に似た品質の指標を用いて、7つの多様なデータセットのモデルを評価した。
論文 参考訳(メタデータ) (2025-04-06T16:24:22Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - On Evaluation of Vision Datasets and Models using Human Competency Frameworks [20.802372291783488]
アイテム応答理論(IRT)は、モデルと各データセット項目のアンサンブルに対して解釈可能な潜在パラメータを推論するフレームワークである。
モデルキャリブレーションを評価し、情報的データサブセットを選択し、コンピュータビジョンにおけるモデルとデータセットを解析・比較するための潜在パラメータの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-06T06:20:11Z) - AttributionScanner: A Visual Analytics System for Model Validation with Metadata-Free Slice Finding [29.07617945233152]
データスライス検索は、低パフォーマンスを示すデータセット内のサブグループを特定し解析することで、機械学習(ML)モデルを検証するための新興技術である。
このアプローチは、追加メタデータに対する退屈でコストのかかる要件を含む、重大な課題に直面します。
本稿では,メタデータを含まないデータスライス検索用に設計された,革新的なビジュアルアナリティクス(VA)システムであるAttributionScannerを紹介する。
本システムでは、一般的なモデル動作を含む解釈可能なデータスライスを特定し、属性モザイク設計によりこれらのパターンを可視化する。
論文 参考訳(メタデータ) (2024-01-12T09:17:32Z) - A Comprehensive Evaluation and Analysis Study for Chinese Spelling Check [53.152011258252315]
音声とグラフィックの情報を合理的に使用することは,中国語のスペルチェックに有効であることを示す。
モデルはテストセットのエラー分布に敏感であり、モデルの欠点を反映している。
一般的なベンチマークであるSIGHANは、モデルの性能を確実に評価できない。
論文 参考訳(メタデータ) (2023-07-25T17:02:38Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - An Empirical Investigation of Commonsense Self-Supervision with
Knowledge Graphs [67.23285413610243]
大規模知識グラフから抽出した情報に基づく自己監督は、言語モデルの一般化を改善することが示されている。
本研究では,言語モデルに適用可能な合成データを生成するための知識サンプリング戦略とサイズの影響について検討する。
論文 参考訳(メタデータ) (2022-05-21T19:49:04Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。