論文の概要: PeerPrism: Peer Evaluation Expertise vs Review-writing AI
- arxiv url: http://arxiv.org/abs/2604.14513v1
- Date: Thu, 16 Apr 2026 00:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.664144
- Title: PeerPrism: Peer Evaluation Expertise vs Review-writing AI
- Title(参考訳): PeerPrism: Peer Evaluation Expertise vs Review-writing AI
- Authors: Soroush Sadeghian, Alireza Daqiq, Radin Cheraghi, Sajad Ebrahimi, Negar Arabzadeh, Ebrahim Bagheri,
- Abstract要約: 20,690のピアレビューのベンチマークであるPeerPrismを紹介した。
我々はPeerPrism上で最先端のLLMテキスト検出手法をベンチマークする。
以上の結果から,現在の検出手法は表面実現と知的貢献を両立させることが示唆された。
- 参考スコア(独自算出の注目度): 12.533035088439975
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in scientific peer review, assisting with drafting, rewriting, expansion, and refinement. However, existing peer-review LLM detection methods largely treat authorship as a binary problem-human vs. AI-without accounting for the hybrid nature of modern review workflows. In practice, evaluative ideas and surface realization may originate from different sources, creating a spectrum of human-AI collaboration. In this work, we introduce PeerPrism, a large-scale benchmark of 20,690 peer reviews explicitly designed to disentangle idea provenance from text provenance. We construct controlled generation regimes spanning fully human, fully synthetic, and multiple hybrid transformations. This design enables systematic evaluation of whether detectors identify the origin of the surface text or the origin of the evaluative reasoning. We benchmark state-of-the-art LLM text detection methods on PeerPrism. While several methods achieve high accuracy on the standard binary task (human vs. fully synthetic), their predictions diverge sharply under hybrid regimes. In particular, when ideas originate from humans but the surface text is AI-generated, detectors frequently disagree and produce contradictory classifications. Accompanied by stylometric and semantic analyses, our results show that current detection methods conflate surface realization with intellectual contribution. Overall, we demonstrate that LLM detection in peer review cannot be reduced to a binary attribution problem. Instead, authorship must be modeled as a multidimensional construct spanning semantic reasoning and stylistic realization. PeerPrism is the first benchmark evaluating human-AI collaboration in these settings. We release all code, data, prompts, and evaluation scripts to facilitate reproducible research at https://github.com/Reviewerly-Inc/PeerPrism.
- Abstract(参考訳): 大規模言語モデル(LLM)は、科学的なピアレビューにおいて、ドラフト作成、書き直し、拡張、改善の支援として、ますます使われている。
しかし、既存のピアレビューLPM検出手法は、現代のレビューワークフローのハイブリッドな性質を考慮せずに、著者をバイナリ問題人間対AIとして扱う。
実際には、評価的アイデアと表面的実現は異なるソースから生まれ、人間とAIのコラボレーションのスペクトルを形成する。
本研究では,20,690人のピアレビューの大規模ベンチマークであるPeerPrismを紹介する。
我々は、完全に人間的で完全に合成され、複数のハイブリッド変換にまたがる制御された生成機構を構築した。
この設計により、検出器が表面テキストの起源や評価的推論の起源を識別するかどうかを体系的に評価することができる。
我々はPeerPrism上で最先端のLLMテキスト検出手法をベンチマークする。
いくつかの手法が標準的なバイナリータスク(人間対完全合成)で高い精度を達成する一方で、それらの予測はハイブリッドな状態下で急激に分岐する。
特に、アイデアが人間に由来するが、表面のテキストがAIによって生成される場合、検出器はしばしば矛盾し、矛盾する分類を生成する。
本研究は,テクスチャ分析とセマンティック分析を併用して,表面実現と知的貢献を両立させる現在の検出手法であることを示す。
全体として、ピアレビューにおけるLLM検出はバイナリ属性問題に還元できないことを示す。
その代わり、著者は意味論的推論とスタイリスティックな実現にまたがる多次元構造としてモデル化されなければならない。
PeerPrismは、これらの設定で人間とAIのコラボレーションを評価する最初のベンチマークである。
我々は、https://github.com/Reviewerly-Inc/PeerPrismで再現可能な研究を促進するために、すべてのコード、データ、プロンプト、評価スクリプトをリリースします。
関連論文リスト
- ScholarPeer: A Context-Aware Multi-Agent Framework for Automated Peer Review [48.60540055009675]
ScholarPeerは、上級研究者の認知過程をエミュレートするために設計された、検索可能なマルチエージェントフレームワークである。
We evaluate ScholarPeer on DeepReview-13K and the results showed that ScholarPeer achieve significant win-rates against state-of-the-art approach in side-side-side evaluations。
論文 参考訳(メタデータ) (2026-01-30T06:54:55Z) - Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - ExaGPT: Example-Based Machine-Generated Text Detection for Human Interpretability [62.285407189502216]
LLM(Large Language Models)によって生成されたテキストの検出は、誤った判断によって致命的な誤りを引き起こす可能性がある。
本稿では,人間の意思決定プロセスに根ざした解釈可能な検出手法であるExaGPTを紹介する。
以上の結果から,ExaGPTは従来の強力な検出器よりも最大で40.9ポイントの精度を1%の偽陽性率で大きく上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T01:15:07Z) - Forging the Forger: An Attempt to Improve Authorship Verification via Data Augmentation [52.72682366640554]
著者検証(英語: Authorship Verification, AV)とは、ある特定の著者によって書かれたか、別の人物によって書かれたのかを推測するテキスト分類タスクである。
多くのAVシステムは敵の攻撃に弱いことが示されており、悪意のある著者は、その書体スタイルを隠蔽するか、あるいは他の著者の書体を模倣することによって、積極的に分類者を騙そうとしている。
論文 参考訳(メタデータ) (2024-03-17T16:36:26Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。