論文の概要: Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI
- arxiv url: http://arxiv.org/abs/2505.15031v1
- Date: Wed, 21 May 2025 02:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.819677
- Title: Are the confidence scores of reviewers consistent with the review content? Evidence from top conference proceedings in AI
- Title(参考訳): レビュー内容とレビュアーの信頼スコアは一致しているか?AIの最上位会議手続きからの証拠
- Authors: Wenqing Wu, Haixu Xi, Chengzhi Zhang,
- Abstract要約: 本研究は,ディープラーニングとNLP会議データを用いて,単語,文,アスペクトレベルでの一貫性を評価する。
我々は、ヘッジ文やアスペクトを検出するためにディープラーニングを使用し、レポートの長さ、ヘッジワード/文頻度、アスペクト参照、感情を分析し、テキストスコアアライメントを評価する。
- 参考スコア(独自算出の注目度): 5.299410398338231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review is vital in academia for evaluating research quality. Top AI conferences use reviewer confidence scores to ensure review reliability, but existing studies lack fine-grained analysis of text-score consistency, potentially missing key details. This work assesses consistency at word, sentence, and aspect levels using deep learning and NLP conference review data. We employ deep learning to detect hedge sentences and aspects, then analyze report length, hedge word/sentence frequency, aspect mentions, and sentiment to evaluate text-score alignment. Correlation, significance, and regression tests examine confidence scores' impact on paper outcomes. Results show high text-score consistency across all levels, with regression revealing higher confidence scores correlate with paper rejection, validating expert assessments and peer review fairness.
- Abstract(参考訳): ピーアレビューは研究の質を評価するために学術において不可欠である。
トップAIカンファレンスは、レビューの信頼性を確保するためにレビュアの信頼性スコアを使用するが、既存の研究ではテキストスコアの一貫性の詳細な分析がなく、重要な詳細が欠落している可能性がある。
本研究は,ディープラーニングとNLP会議レビューデータを用いて,単語,文,アスペクトレベルでの一貫性を評価する。
我々は、ヘッジ文やアスペクトを検出するためにディープラーニングを使用し、レポートの長さ、ヘッジワード/文頻度、アスペクト参照、感情を分析し、テキストスコアアライメントを評価する。
相関、重要性、回帰テストは、紙結果に対する信頼度スコアの影響を調べる。
その結果、すべてのレベルにおいて高いテキストスコア一貫性が示され、レグレッションは高い信頼度スコアが紙の拒絶、専門家の評価の検証、ピアレビューフェアネスと相関していることが判明した。
関連論文リスト
- Insights from the ICLR Peer Review and Rebuttal Process [11.96840383745149]
ICLR 2024と2025のピアレビュープロセスを大規模に分析する。
本研究は,レビュースコア,著者-レビューアテンション,レビュー提出時の時間的パターン,共同レビューアの影響について検討する。
この結果から,初回評価と共同視聴者の評価が,報奨期間における得点変化の予測因子として最強であることが示唆された。
論文 参考訳(メタデータ) (2025-11-19T14:21:52Z) - What Drives Paper Acceptance? A Process-Centric Analysis of Modern Peer Review [2.9282248958475345]
ICLR 2017-2025の大規模な実証研究を行い、28,000件以上の提出書を提出した。
以上の結果から,科学的新奇性以外の要因が受容結果を著しく形作っていることが示唆された。
著者,レビュアー,メタレビュアーに対して,ピアレビューにおける透明性と公正性を高めるためのデータ駆動ガイドラインを提案する。
論文 参考訳(メタデータ) (2025-09-30T03:00:10Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - Beyond "Not Novel Enough": Enriching Scholarly Critique with LLM-Assisted Feedback [81.0031690510116]
本稿では,3段階を通して専門家レビューアの動作をモデル化する,自動ノベルティ評価のための構造化アプローチを提案する。
本手法は,人文のノベルティレビューを大規模に分析した結果から得られたものである。
182 ICLR 2025 の提出で評価されたこの手法は、人間の推論と86.5%の一致と、新規性の結論に関する75.3%の合意を達成している。
論文 参考訳(メタデータ) (2025-08-14T16:18:37Z) - Language Models Prefer What They Know: Relative Confidence Estimation via Confidence Preferences [62.52739672949452]
言語モデル(LM)は、ユーザーがアウトプットの誤りを検知し、必要であれば人間の専門家に延期するのに役立つ、信頼性の高い信頼推定を提供する必要がある。
本稿では,相対的信頼度推定法を提案する。そこでは,相互に質問をマッチングし,モデルに信頼度を相対的に判断するよう求める。
各質問を、他の質問に対する「プレイヤー」として扱い、モデルの選好を一致結果として扱うことで、モデルの信頼性選好を信頼スコアに変換するために、Elo評価やBradley-Terryのようなランクアグリゲーション手法を使うことができる。
論文 参考訳(メタデータ) (2025-02-03T07:43:27Z) - Paper Quality Assessment based on Individual Wisdom Metrics from Open Peer Review [3.802113616844045]
本研究では,レビュアの品質を推定するオープンなボトムアッププロセスを通じて,科学的ピアレビューの精度と効率を向上させるためのデータ駆動フレームワークを提案する。
我々は,2つの主要な学術会議から開かれたピアレビューデータを分析し,レビュアー固有の品質スコアが紙の品質評価の信頼性を著しく向上することを示した。
論文 参考訳(メタデータ) (2025-01-22T17:00:27Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - When Reviewers Lock Horn: Finding Disagreement in Scientific Peer
Reviews [24.875901048855077]
本稿では,ある記事のレビュアー間での矛盾を自動的に識別する新しいタスクを紹介する。
我々の知識を最大限に活用するために、ピアレビュアー間での意見の不一致を自動的に識別する最初の試みを行う。
論文 参考訳(メタデータ) (2023-10-28T11:57:51Z) - Student's t-Distribution: On Measuring the Inter-Rater Reliability When
the Observations are Scarce [14.20687200301588]
自然言語処理(NLP)において、我々は常にゴールデンクオリティ評価法として人間の判断に頼っている。
本研究は,データポイントが1つしかない場合に,測定値の信頼区間を推定する方法を提案する。
これら2つのデータポイントと品質評価の信頼区間(CI)を用いてIRRスコアを測定する方法について説明する。
論文 参考訳(メタデータ) (2023-03-08T11:51:26Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Ranking Scientific Papers Using Preference Learning [48.78161994501516]
我々はこれをピアレビューテキストとレビュアースコアに基づく論文ランキング問題とみなした。
ピアレビューに基づいて最終決定を行うための,新しい多面的総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-02T19:41:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。