論文の概要: Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection
- arxiv url: http://arxiv.org/abs/2507.15286v1
- Date: Mon, 21 Jul 2025 06:37:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.285957
- Title: Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection
- Title(参考訳): Beyond Easy Wins: LLM生成テキスト検出のためのテキストハードネス対応ベンチマーク
- Authors: Navid Ayoobi, Sadat Shahriar, Arjun Mukherjee,
- Abstract要約: 本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。
我々のベンチマークであるShielDは、信頼性と安定性の両要素を統一評価基準に統合することにより、これらの制限に対処する。
制御可能な硬度パラメータを組み込んだモデル非依存型ヒューマニフィケーションフレームワークを開発した。
- 参考スコア(独自算出の注目度): 0.38233569758620056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel evaluation paradigm for AI text detectors that prioritizes real-world and equitable assessment. Current approaches predominantly report conventional metrics like AUROC, overlooking that even modest false positive rates constitute a critical impediment to practical deployment of detection systems. Furthermore, real-world deployment necessitates predetermined threshold configuration, making detector stability (i.e. the maintenance of consistent performance across diverse domains and adversarial scenarios), a critical factor. These aspects have been largely ignored in previous research and benchmarks. Our benchmark, SHIELD, addresses these limitations by integrating both reliability and stability factors into a unified evaluation metric designed for practical assessment. Furthermore, we develop a post-hoc, model-agnostic humanification framework that modifies AI text to more closely resemble human authorship, incorporating a controllable hardness parameter. This hardness-aware approach effectively challenges current SOTA zero-shot detection methods in maintaining both reliability and stability. (Data and code: https://github.com/navid-aub/SHIELD-Benchmark)
- Abstract(参考訳): 本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。
現在のアプローチでは、AUROCのような従来のメトリクスを主に報告しており、たとえ控えめな偽陽性率であっても、検出システムの実践的な展開にとって重要な障害となっていることを見落としている。
さらに、現実世界のデプロイメントには所定のしきい値の設定が必要であり、検出器の安定性(例えば、さまざまなドメインと敵シナリオ間の一貫したパフォーマンスの維持)が重要な要素である。
これらの側面は、以前の研究やベンチマークでは無視されてきた。
我々のベンチマークであるShielDは、信頼性と安定性の両要素を、実用的な評価のために設計された統一評価指標に統合することで、これらの制限に対処する。
さらに,制御可能な硬度パラメータを組み込んだ,AIテキストを人間の著作物に近いものに改良した,ポストホックでモデルに依存しないヒューマニフィケーションフレームワークを開発した。
このハードネス対応アプローチは、信頼性と安定性の両方を維持するために、現在のSOTAゼロショット検出法に効果的に挑戦する。
(データ・コード:https://github.com/navid-aub/SHIELD-Benchmark)
関連論文リスト
- RoHOI: Robustness Benchmark for Human-Object Interaction Detection [38.09248570129455]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Rethinking Semi-supervised Segmentation Beyond Accuracy: Reliability and Robustness [10.220692937750295]
信頼性スコア(Reliable Score, RSS)は、予測精度、キャリブレーション、不確実性の測定を調和平均で組み合わせた新しい尺度である。
我々は、半教師付き学習研究と現実世界の展開ニーズをより良く整合させるために、RSSのようなより包括的なメトリクスへの評価プロトコルのシフトを提唱する。
論文 参考訳(メタデータ) (2025-06-06T09:37:45Z) - DCR-Consistency: Divide-Conquer-Reasoning for Consistency Evaluation and
Improvement of Large Language Models [4.953092503184905]
この研究は、LLM(Large Language Models)生成したテキストの一貫性を評価し改善する自動化フレームワークであるDCRを提案する。
本稿では,DCEからの出力を解釈可能な数値スコアに変換する自動計量変換器(AMC)を提案する。
また,本手法は出力不整合の90%近くを著しく低減し,効果的な幻覚緩和の可能性を示唆している。
論文 参考訳(メタデータ) (2024-01-04T08:34:16Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - On the Robustness of Aspect-based Sentiment Analysis: Rethinking Model,
Data, and Training [109.9218185711916]
アスペクトベースの感情分析(ABSA)は、ソーシャルメディアのテキストやレビューの背後にある製品やサービスの特定の側面に対して、特定の感情の極性を自動的に推測することを目的としている。
我々は、モデル、データ、トレーニングを含むあらゆる可能な角度からボトルネックを体系的に再考することで、ABSAの堅牢性を高めることを提案する。
論文 参考訳(メタデータ) (2023-04-19T11:07:43Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。