論文の概要: Paper Quality Assessment based on Individual Wisdom Metrics from Open Peer Review
- arxiv url: http://arxiv.org/abs/2501.13014v2
- Date: Thu, 02 Oct 2025 00:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 14:32:17.046444
- Title: Paper Quality Assessment based on Individual Wisdom Metrics from Open Peer Review
- Title(参考訳): オープンピアレビューによる個人知名度に基づく紙品質評価
- Authors: Andrii Zahorodnii, Jasper J. F. van den Bosch, Ian Charest, Christopher Summerfield, Ila R. Fiete,
- Abstract要約: 従来のクローズドピアレビューシステムは遅く、コストがかかり、透明ではない。
我々は、オープンなボトムアッププロセスを通じて、科学的ピアレビューの代替形態の有効性と正確性を提案し、検証する。
- 参考スコア(独自算出の注目度): 4.35783648216893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional closed peer review systems, which have played a central role in scientific publishing, are often slow, costly, non-transparent, stochastic, and possibly subject to biases - factors that can impede scientific progress and undermine public trust. Here, we propose and examine the efficacy and accuracy of an alternative form of scientific peer review: through an open, bottom-up process. First, using data from two major scientific conferences (CCN2023 and ICLR2023), we highlight how high variability of review scores and low correlation across reviewers presents a challenge for collective review. We quantify reviewer agreement with community consensus scores and use this as a reviewer quality estimator, showing that surprisingly, reviewer quality scores are not correlated with authorship quality. Instead, we reveal an inverted U-shape relationship, where authors with intermediate paper scores are the best reviewers. We assess empirical Bayesian methods to estimate paper quality based on different assessments of individual reviewer reliability. We show how under a one-shot review-then-score scenario, both in our models and on real peer review data, a Bayesian measure significantly improves paper quality assessments relative to simple averaging. We then consider an ongoing model of publishing, reviewing, and scoring, with reviewers scoring not only papers but also other reviewers. We show that user-generated reviewer ratings can yield robust and high-quality paper scoring even when unreliable (but unbiased) reviewers dominate. Finally, we outline incentive structures to recognize high-quality reviewers and encourage broader reviewing coverage of submitted papers. These findings suggest that a self-selecting open peer review process is potentially scalable, reliable, and equitable with the possibility of enhancing the speed, fairness, and transparency of the peer review process.
- Abstract(参考訳): 従来のクローズド・ピア・レビュー・システムは、科学出版において中心的な役割を担ってきたが、しばしば遅く、費用がかかり、不透明で、確率的であり、偏見を受けやすい。
本稿では、オープンなボトムアッププロセスを通じて、科学的ピアレビューの代替形態の有効性と精度について検討する。
まず,2つの主要な科学会議(CCN2023とICLR2023)のデータを用いて,レビュースコアの高変動とレビュアー間の相関の低さが,総合的なレビューの課題であることを示す。
我々は,コミュニティのコンセンサススコアとレビュア合意を定量化し,これをレビュア品質推定器として利用し,驚くほど,レビュア品質スコアが著者の品質と相関しないことを示す。
代わりに、中間紙スコアを持つ著者がベストレビュアーである逆U字型関係を明らかにする。
我々は,個々のレビュアーの信頼性の異なる評価に基づいて,論文の品質を推定するための経験的ベイズ手法を評価する。
我々のモデルと実際のピアレビューデータの両方において、ワンショットレビュースコアシナリオの下では、ベイズ測度が紙の品質評価を単純な平均値と比較して著しく改善することを示す。
次に、出版、レビュー、スコアリングの継続するモデルを検討し、レビュアーは論文だけでなく、他のレビュアーも得点する。
信頼性の低い(しかしバイアスのない)レビュアーが優勢である場合でも、ユーザ生成のレビュアー評価が堅牢で高品質な紙スコアを得られることを示す。
最後に、高品質なレビュアーを認識し、提出された論文の広範なレビューを奨励するインセンティブ構造について概説する。
これらの結果から,自己選択型ピアレビュープロセスは,潜在的にスケーラブルで信頼性が高く,ピアレビュープロセスのスピード,公正性,透明性を高める可能性に適合している可能性が示唆された。
関連論文リスト
- OpenReview Should be Protected and Leveraged as a Community Asset for Research in the Era of Large Language Models [55.21589313404023]
OpenReviewは、研究論文、ピアレビュー、著者の反論、メタレビュー、決定結果の継続的な進化を続けるリポジトリである。
OpenReviewは、ピアレビュープロセスの品質、スケーラビリティ、説明責任の向上、真に専門家の議論に根ざした有意義でオープンなベンチマークの実現、専門家の評価、意図、科学的価値を反映した現実世界のインタラクションによるアライメント研究の支援という、ユニークな貢献が可能な3つの領域を強調します。
コミュニティは、OpenReviewに関する標準化されたベンチマークと利用ガイドラインを共同で検討し、責任あるデータの使用、倫理的考慮、集団スチュワードシップに関するより広範な対話を招待することを提案します。
論文 参考訳(メタデータ) (2025-05-24T09:07:13Z) - Position: The AI Conference Peer Review Crisis Demands Author Feedback and Reviewer Rewards [2.8239108914343305]
本稿では,従来の一方向レビューシステムを双方向フィードバックループに変換する必要性を論じる。
著者はレビューの品質を評価し、レビュアーは正式な認定を受け、説明責任フレームワークを作成する。
論文 参考訳(メタデータ) (2025-05-08T05:51:48Z) - Identifying Aspects in Peer Reviews [61.374437855024844]
我々は、ピアレビューのコーパスからきめ細かいアスペクトを抽出するデータ駆動型スキーマを開発した。
我々は、アスペクトを付加したピアレビューのデータセットを導入し、コミュニティレベルのレビュー分析にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2025-04-09T14:14:42Z) - exHarmony: Authorship and Citations for Benchmarking the Reviewer Assignment Problem [11.763640675057076]
明示的なラベルを必要とせずにレビュアー代入問題を評価するためのベンチマークデータセットを開発した。
従来の語彙マッチング、静的なニューラル埋め込み、文脈化されたニューラル埋め込みなど、さまざまな手法をベンチマークする。
本研究は,従来の手法が合理的に良好に機能する一方で,学術文献で訓練された文脈的埋め込みが最高の性能を示すことを示すものである。
論文 参考訳(メタデータ) (2025-02-11T16:35:04Z) - Generative Adversarial Reviews: When LLMs Become the Critic [1.2430809884830318]
本稿では,LLMを利用したエージェントを利用して,忠実なピアレビュアーをシミュレートするジェネレーティブエージェントレビュアー(GAR)を紹介する。
このアプローチの中心は、グラフベースの原稿表現であり、コンテンツを凝縮し、情報を論理的に整理する。
本実験は,GARが人間レビュアーに対して,詳細なフィードバックと論文結果の予測を行う上で,相容れない性能を示すことを示した。
論文 参考訳(メタデータ) (2024-12-09T06:58:17Z) - Multi-Facet Counterfactual Learning for Content Quality Evaluation [48.73583736357489]
コンテンツ品質評価の複数の側面を知覚する評価器を効率的に構築する枠組みを提案する。
我々は,コントラスト学習と教師付き学習に基づく共同学習戦略を活用し,評価者が異なる品質面を区別できるようにする。
論文 参考訳(メタデータ) (2024-10-10T08:04:10Z) - Analysis of the ICML 2023 Ranking Data: Can Authors' Opinions of Their Own Papers Assist Peer Review in Machine Learning? [52.00419656272129]
我々は2023年の国際機械学習会議(ICML)で実験を行った。
我々はそれぞれ2,592件の応募書を含む1,342件のランク付けを受けた。
著者によるランキングを用いて生のレビュースコアを校正するイソトニックメカニズムに注目した。
論文 参考訳(メタデータ) (2024-08-24T01:51:23Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [55.33653554387953]
パターン分析とマシンインテリジェンス(PAMI)は、情報の収集と断片化を目的とした多くの文献レビューにつながっている。
本稿では、PAMI分野におけるこれらの文献レビューの徹底的な分析について述べる。
1)PAMI文献レビューの構造的・統計的特徴は何か,(2)レビューの増大するコーパスを効率的にナビゲートするために研究者が活用できる戦略は何か,(3)AIが作成したレビューの利点と限界は人間によるレビューと比較するとどのようなものか,という3つの主要な研究課題に対処しようとする。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Eliciting Honest Information From Authors Using Sequential Review [13.424398627546788]
本稿では,著者からランキング情報を真に引き出すための逐次レビュー機構を提案する。
鍵となる考え方は、提供されたランキングに基づいて著者の論文をシーケンスでレビューし、前の論文のレビュースコアについて次の論文のレビューを条件付けることである。
論文 参考訳(メタデータ) (2023-11-24T17:27:39Z) - Consultation Checklists: Standardising the Human Evaluation of Medical
Note Generation [58.54483567073125]
本稿では,コンサルテーションチェックリストの評価を基礎として,客観性向上を目的としたプロトコルを提案する。
このプロトコルを用いた最初の評価研究において,アノテータ間合意の良好なレベルを観察した。
論文 参考訳(メタデータ) (2022-11-17T10:54:28Z) - Investigating Crowdsourcing Protocols for Evaluating the Factual
Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。
評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。
ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文 参考訳(メタデータ) (2021-09-19T19:05:00Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z) - Making Paper Reviewing Robust to Bid Manipulation Attacks [44.34601846490532]
逸話的な証拠は、一部のレビュアーが「友人」あるいは「衝突する著者」による論文の入札を行ったことを示唆している。
我々は、そのような攻撃に対してより堅牢な、紙入札と割当てのための新しいアプローチを開発する。
より堅牢であることに加えて、論文レビューの課題の質は、現在の非ロバストな課題のアプローチに匹敵する。
論文 参考訳(メタデータ) (2021-02-09T21:24:16Z) - Debiasing Evaluations That are Biased by Evaluations [32.135315382120154]
我々は、結果に関する情報が利用可能である場合に、評価における結果誘発バイアスを緩和する問題を考察する。
この順序制約の下で正規化最適化問題を解くことでデバイアス化手法を提案する。
また,適切な正規化量を適応的に選択するクロスバリデーション手法も提案する。
論文 参考訳(メタデータ) (2020-12-01T18:20:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。