論文の概要: Zero-shot reasoning for simulating scholarly peer-review
- arxiv url: http://arxiv.org/abs/2510.02027v1
- Date: Thu, 02 Oct 2025 13:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.15124
- Title: Zero-shot reasoning for simulating scholarly peer-review
- Title(参考訳): 学術的ピアレビューのシミュレーションのためのゼロショット推論
- Authors: Khalid M. Saqr,
- Abstract要約: 本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。
第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The scholarly publishing ecosystem faces a dual crisis of unmanageable submission volumes and unregulated AI, creating an urgent need for new governance models to safeguard scientific integrity. The traditional human-only peer review regime lacks a scalable, objective benchmark, making editorial processes opaque and difficult to audit. Here we investigate a deterministic simulation framework that provides the first stable, evidence-based standard for evaluating AI-generated peer review reports. Analyzing 352 peer-review simulation reports, we identify consistent system state indicators that demonstrate its reliability. First, the system is able to simulate calibrated editorial judgment, with 'Revise' decisions consistently forming the majority outcome (>50%) across all disciplines, while 'Reject' rates dynamically adapt to field-specific norms, rising to 45% in Health Sciences. Second, it maintains unwavering procedural integrity, enforcing a stable 29% evidence-anchoring compliance rate that remains invariant across diverse review tasks and scientific domains. These findings demonstrate a system that is predictably rule-bound, mitigating the stochasticity of generative AI. For the scientific community, this provides a transparent tool to ensure fairness; for publishing strategists, it offers a scalable instrument for auditing workflows, managing integrity risks, and implementing evidence-based governance. The framework repositions AI as an essential component of institutional accountability, providing the critical infrastructure to maintain trust in scholarly communication.
- Abstract(参考訳): 学術出版のエコシステムは、管理不能な提出量と規制されていないAIの二重危機に直面しており、科学的完全性を保護するために新しいガバナンスモデルが緊急に必要となる。
従来の人間のみのピアレビュー体制では、スケーラブルで客観的なベンチマークがなく、編集プロセスが不透明で監査が難しい。
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
352のピアレビューシミュレーションレポートを分析し,その信頼性を示す一貫したシステム状態指標を同定する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、すべての分野において「改訂」決定が一貫して多数結果(>50%)を形成し、一方、「削除」レートはフィールド固有の規範に動的に適応し、健康科学では45%まで上昇する。
第二に、手続きの整合性を揺るぎないまま維持し、様々なレビュータスクや科学領域で変わらず、安定した29%の証拠承認のコンプライアンス率を強制する。
これらの結果は、予測可能なルールバウンドのシステムを示し、生成AIの確率性を緩和する。
ストラテジストの出版のためには、ワークフローの監査、整合性リスクの管理、エビデンスベースのガバナンスの実施のためのスケーラブルな手段を提供する。
このフレームワークは、AIを制度的説明責任の本質的な構成要素として再配置し、学術的なコミュニケーションにおける信頼を維持するための重要なインフラを提供する。
関連論文リスト
- Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance? [2.010294990327175]
現在のAI評価プラクティスは、確立されたベンチマークに大きく依存しています。
この研究は、この「ベンチマーク・規制ギャップ」を定量化する緊急の必要性に対処する。
評価のエコシステムは、その焦点の大部分を狭い行動規範に捧げています。
論文 参考訳(メタデータ) (2025-08-07T15:03:39Z) - The Architecture of Trust: A Framework for AI-Augmented Real Estate Valuation in the Era of Structured Data [0.0]
Uniform Appraisal dataset (UAD) 3.6の必須2026実装は、住宅資産の評価を物語報告から機械可読形式に変換する。
本稿では、コンピュータビジョン、自然言語処理、自律システムにおけるAIの進歩と並行して、この規制シフトを包括的に分析する。
技術的実装と機関的信頼要件に対処するAI付加評価のための3層フレームワークを開発する。
論文 参考訳(メタデータ) (2025-08-04T05:24:25Z) - AI Agents-as-Judge: Automated Assessment of Accuracy, Consistency, Completeness and Clarity for Enterprise Documents [0.0]
本研究では,AIエージェントを用いた高度に構造化された企業文書の自動レビューのためのモジュール型マルチエージェントシステムを提案する。
LangChain、CrewAI、TruLens、Guidanceといった現代的なオーケストレーションツールを使用して、文書のセクション単位での評価を可能にする。
99%の情報一貫性(人間の場合は92%)を実現し、エラーとバイアス率を半減させ、1文書あたりの平均レビュー時間を30分から2.5分に短縮する。
論文 参考訳(メタデータ) (2025-06-23T17:46:15Z) - On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective [377.2483044466149]
Generative Foundation Models (GenFMs) がトランスフォーメーションツールとして登場した。
彼らの広く採用されていることは、次元の信頼に関する重要な懸念を提起する。
本稿では,3つの主要なコントリビューションを通じて,これらの課題に対処するための包括的枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-20T06:20:36Z) - Meta-Sealing: A Revolutionizing Integrity Assurance Protocol for Transparent, Tamper-Proof, and Trustworthy AI System [0.0]
この研究は、AIシステムの整合性検証を根本的に変更する暗号フレームワークであるMeta-Sealingを紹介する。
このフレームワークは、高度な暗号と分散検証を組み合わせることで、数学的厳密さと計算効率の両方を達成する、暗黙の保証を提供する。
論文 参考訳(メタデータ) (2024-10-31T15:31:22Z) - TELLER: A Trustworthy Framework for Explainable, Generalizable and Controllable Fake News Detection [37.394874500480206]
本稿では,モデルの説明可能性,一般化性,制御性を重視した,信頼に値する偽ニュース検出のための新しいフレームワークを提案する。
これは認知と意思決定システムを統合するデュアルシステムフレームワークによって実現される。
提案手法の有効性と信頼性を実証し,4つのデータセットに対する総合的な評価結果を示す。
論文 参考訳(メタデータ) (2024-02-12T16:41:54Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。